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1. Zur Priifung sog. Kausalhypothesen 

Selten begntigt man sich in der Psychologie, wie in anderen empirischen Wis- 
senschaftszweigen auch, damit, die korrelativen Beziehungen zwischen ver- 
schiedenen Variablen zu konstatieren, ohne zu priifen, welche Variablen auf 
andere einwirken. Man intendiert Aussagen wie z.B. ,,X wirkt sich auf Y aus“. 
Derartige Interpretationen sind bekanntlich nicht einfach aus den korrelativen 
Beziehungen zu erschlieBen. Entweder stellt man aufgrund experimenteller 
Planungen sicher, daB die Variation von Y als Folge der Variation von X 
interpretiert werden kann, oder es wird, falls experimentelles Handeln nicht 
moglich ist, ein Modell iiber die Beeinflussungsrichtung zwischen den Varia- 
blen aufgestellt, das auch dann prilfbar ist, wenn es sich um reine Korrelations- 
forschung handelt. 

Dem Experiment, dessen Planung und Auswertung ausfiihrlich durch Hager 
und Westermann in diesem Band behandelt werden, kommt unter den ver- 
schiedenen Methoden zur Uberpriifung sog. Kausalhypothesen - dieser Be- 
griff wird noch prazisiert werden - eine Sonderstellung zu. Der Experimen- 
tator selbst stellt verschiedene Bedingungen her (er ,,manipuliert“ eine Varia- 
ble) und beobachtet die Auswirkungen dieser ,,unabhangigen“ auf eine andere 
,,abhangige“ Variable. Dadurch wird eine zeitliche Abfolge unabhangige Va- 
riable ,,X“ — > abhangige Variable ,,Y“ hergestellt, und die korrelative Bezie- 
hung zwischen beiden GrbBen kann nicht derart interpretiert werden, daB sich 
Y auf X auswirkt. Allerdings reicht das bisher geschilderte Vorgehen noch 
nicht aus, um behaupten zu konnen, daB X auf Y einwirkt. Mit X konnten 
eine oder mehrere Storvariablen ,,St“ korreliert sein, die ,,in Wirklichkeit“ fur 
den beobachteten Zusammenhang zwischen X und Y verantwortlich sind. Um 
die Moglichkeit einer derartigen Scheinbeziehung zwischen X und Y, wie sie 
in Abb. 1 dargestellt ist, zu reduzieren, bedient man sich in der experimentel- 
len Psychologie verschiedener Kontrollverfahren; in der Terminologie Camp- 
bells und Stanleys (1963) kommt einem Experiment um so groBere interne 
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Validitat zu, je geringer die Moglichkeit zu derartigen Scheinbeziehungen ist. 
Wichtig ist vor allem die zufallige Zuweisung der Probanden auf die experi- 
mentellen Bedingungen (Randomisierung), die unerlaBlich ist, um den Erwar- 
tungswert der Korrelation zwischen Person merkmalen und X Null werden zu 
lassen. Neben der Randomisierung kommen vor allem die Konstanthaltung 
und die von X unabhangige systematische Variation bekannter StorgroGen in 
Frage. Durch diese Variation wird eine zweite „unabhangige" Variable zur 
Kontrolle eingefuhrt, und es ist jetzt prufbar, ob X auf alien Stufen von St 
denselben EinfluG auf Y ausubt (die statistische Interaktion zwischen X und St 
ist Null) Oder ob dieser EinfluG von St abhangig ist (X und St interagieren). In 
der experimentellen Psychologie wird, wie gesagt, meistens so verfahren, daR 
X und St nicht korrelieren. Unterstellt man seinen Daten das lineare Modell 
einer multiplen Regression (vgl. dazu Schubo et al. in Band 4 dieser Enzyklo- 
padie), so laBt sich das zugrundeliegende Beeinflussungsmodell wie in Abb. 2 
darstellen, wobei vorausgesetzt ist, daR X, St und die Interaktionsvariable XSt 
wechselseitig nicht miteinander korrelieren (diese Variablen sind deshalb in 
Abb. 2 nicht durch Pfeile verbunden). 




Abb. i: Der gekrummte Doppelpfeil weist auf eine korrelative Beziehung zwischen X 
und St hin, die nicht daraufhin analysiert werden kann, welche Variable unab- 
hangig in bezug auf die andere ist. St beeinfluBt Y direkt, wahrend der Zusam- 
menhang zwischen X und Y zum Schein besteht: X und Y korrelieren nur 
deshalb, weil X mit einer Variablen korreliert, die einen direkten EinfluB auf Y 
ausubt. 




Abb. 2: 
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In diesem Graphen symbolsieren a', b', c' die EinfluRgroRen der Variablen X, 
St und XSt auf Y. Meistens wird mittels der Varianzanalyse gepruft, ob a', b' 
und c' Null sind (die Varianzanalyse ist ein Spezialfal I der multiplen Regres- 
sionsanalyse, und a', b', c' sind die (multiplen) Korrelationen zwischen X und 
Y, St und Y sowie XSt und Y). Ist c'^0 und a'=0, spricht man von einer fur X 
disordinalen Interaktion (vgl. Bredenkamp, 1980): Die Richtung der Beein- 
flussung von X auf Y hangt von dem Wert der Storvariablen ab. Wenn c'=A0 
und a'=A0, ist fur die experimentelle Variable X aus diesen Informationen nicht 
ableitbar, ob X mit St derart interagiert, daR die gleiche Beeinflussungsrich- 
tung von X auf Y unter alien Werten von St vorliegt (Interaktion fur X ist 
ordinal). Sol Ite die Interaktion fur X disordinal sein, kann nicht von einer 
Kausalbeziehung zwischen X und Y gesprochen werden. Diese kann nur dann 
vorliegen, wenn a'#0 und c'=0, Oder wenn a'#0 und c's^O, zusatzlich aber 
gezeigt worden ist, daR die Interaktion an der Beeinflussungsrichtung von X 
auf Y nichts andert (vgl. dazu Bredenkamp, 1982). 

Mit der Nennung dreier Techniken ist das Reservoir notwendiger Kontrollen, 
damit das Experiment dem Anspruch als Prufexperiment von Kausalhypothe- 
sen gerecht werden kann, nicht ausgeschopft. Ausfuhrlich hieruber informie- 
ren Hager und Westermann in diesem Band (vgl. auch Bredenkamp, 1980). 
Spater werden wir noch auf einen Aspekt der Kontrolle zu sprechen kommen, 
welche die Validitat des statistischen Schlusses sichern soil. 

In Abb. 1 und Abb. 2 sind sog. rekursive Systeme dargestellt, die dadurch 
ausgezeichnet sind, daR in den Graphen keine Zyklen auftreten. Es gibt keinen 
Pfad von einer Variablen zu einer anderen Variablen, von der aus man wieder 
zum Ausgangspunkt zuruckkommt. Der Doppelpfeil in Abb. 1 besagt nur, 
daR die Richtung der Beziehung zwischen X und St nicht analysiert wird. In 
einem nicht-rekursiven System wurde dagegen in Abb. 1 ein Pfeil von X nach 
St und ein anderer Pfeil von St nach X laufen. Derartige Systeme werden hier 
nicht betrachtet (vgl. dazu Hummel I und Ziegler, 1976). In rekursiven Syste- 
men heiRen solche Variablen, von denen nur Pfeile ausgehen, exogen, wahrend 
Variablen, bei denen wenigstens ein Pfeil ankommt, endogen genannt werden. 
Ublicherweise sind also die unabhangigen Variablen eines Experiments exoge- 
ne, die abhangigen Variablen endogene Variablen innerhalb eines rekursiven 
Systems; allerdings finden sich, wie noch gezeigt wird, auch Beispiele, in 
denen manche unabhangige Variable endogen ist. Ein rekursives System soil 
nur dann kausal heiRen, wenn es entweder keine Interaktionsvariablen enthalt, 
Oder wenn gezeigt werden kann, daR die Interaktionsvariablen die Beeinflus- 
sungsrichtung der interessierenden Variablen auf andere nicht modifizieren. 

Die Formulierung rekursiver Systeme ist selbstverstandlich nicht auf die expe- 
rimentelle Psychologie beschrankt, sondern auch in der Korrelationsforschung 
moglich, wobei unter Korrelationsforschung die Analyse korrelativer Bezie- 
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hungen zwischen Variablen aus einer Untersuchung zu verstehen ist, der nicht 
die Merkmale ..Manipulation" wenigstens einer Variablen und ..Randomisie- 
rung" zukommen (s.o.). Z.B. konnten fur die Variablen ..Allgemeine Intelli- 
genz" (Al), „l ntel I igenz in der Wahrnehmung des Lehrers" (IW) und „Zeug- 
nisnote" (ZN) die rekursiven Systeme in Abb. 3a und Abb. 3b formuliert 
werden (verei nfachtes Beispiel aus Brandtstadter und Bernitzke, 1976). 




Abb. 3a: 




In Abb. 3a wird ein direkter und ein uber IW vermittelter EinfluB von Al auf 
ZN postuliert, wahrend in Abb. 3b nur ein vermittelter EinfluB angenommen 
wird. Die impliziten Variablen e bezeichnen durch die Problemstellung nicht 
berucksichtigte GroBen, durch deren Einfuhrung man formal eine SchlieBung 
des Systems erreicht. Systeme wie in Abb. 3a und Abb. 3b heiBen lineare 
Kausalstrukturen, wenn die Beziehungen zwischen den Variablen ausschlieB- 
lich linear sind; nur derartige Systeme sollen hier betrachtet werden. 

Das System in Abb. 3a heiBt vollstandig, da Wirkungen zwischen alien Varia- 
blenpaaren postuliert werden. Dagegen heiBt das System in Abb. 3b unvoll- 
standig, da es nicht al I e (5 1 ) Beziehungen zwischen den m expliziten Variablen 
enthalt. 

Von einer kausalen Wirkung von X auf Y innerhalb einer gegebenen Kausal- 
struktur soil nur dann gesprochen werden, wenn von X auf Y nachweisbar 
direkte und/ Oder indirekte Einflusse bestehen (und wenn die aufgrund der 
Kausalstruktur vorhergesagten Korrelationen zwischen den Variablen den em- 
pirisch ermittelten Korrelationen entsprechen; vgl. Hummell und Ziegler, 
1976). Damit sind zwei Prufbedingungen angesprochen, auf diejetzt eingegan- 
gen werden soil. Zuvor sei betont, daB die Aussage „X wirkt kausal auf Y" 
immer nur innerhalb eines bestimmten rekursiven Systems gilt Oder nicht 
zutrifft. 

Das ubliche Experiment versucht durch die Anwendung von Kontrolltechni- 
ken zu erreichen, daB der gesamte kausale EinfluB von X auf Y als ausschlieB- 
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lich direkter EinfluB analysiert werden kann. Dieses Vorgehen ist in dem MaBe 
erfolgreich, wie gewahrleistet ist, daB durch die Manipulation von X nicht 
andere Variablen, die auf Y einwirken, verandert werden (interne Validitat). 
Die Prufung der Aussage „X wirkt kausal auf Y" geschieht derart, daB stati- 
stisch die Hypothese a'=0 getestet wird (aquivalent dem Test der Hypothese, 
dal$ die Korrelation zwischen X und Y Null ist). Wenn diese Hypothese a'=0 
abgelehnt werden kann, gilt die Aussage „X wirkt auf Y kausal" als vorlaufig 
bewahrt, wobei noch durch die Einfuhrung von sog. MaBen der praktischen 
Signifikanz (vgl. dazu Hager und Westermann in diesem Band) zusatzlich 
gefordert werden kann, daB a, die Schatzung fur a', einen gewissen Wert uber- 
steigt. Vorauszusetzen ist auBerdem immer, daB, bezogen auf Abb. 2, c'=0 
Oder die Interaktion zwischen X und St nichts an der Beeinflussungsrichtung 
von X auf Y unter verschiedenen Werten von St andert. Wenn jedoch die 
Hypothese a'=0 angenommen werden muB, liegt eine notwendige, aus ver- 
schiedenen Grunden jedoch noch nicht hinreichende Bedingung (vgl. dazu 
Bredenkamp, 1980) fur den SchluB or, X wirke nicht kausal auf Y.‘) Auf 
statistische Erfordernisse beim Test derartiger Hypothesen kommen wir in 
Abschnitt 2 zu sprechen. Weitere Prufungen sind nicht moglich, sofern im 
rekursiven System nur direkte Wirkungen postuliert werden und keine Vorin- 
formationen uber die GroBe der Einflusse a', b', c' existieren. 

In der Korrelationsforschung lassen sich ebenfalls Kausal hypothesen prufen. 
Fur die Prufung von Kausal hypothesen ist nicht die experimented Kontroll- 
moglichkeit entscheidend, sondern die Konzeption eines kausalen rekursiven 
Systems. Die Kontrolle im Experiment soil nur bewirken, daB allein direkte 
kausale Einflusse analysiert werden konnen. In der Korrelationsforschung da- 
gegen wird wegen eingeschrankter Kontrollmoglichkeiten von vornherein von 
direkten und indirekten Einflussen ausgegangen. Die rekursive Pfadanalyse ist 
das Analyseverfahren, um Kausal hypothesen in der Korrelationsforschung zu 
uberprufen. Wir gehen hier nur auf die rekursive lineare Pfadanalyse ein (vgl. 
etwa Brandtstadter und Bernitzke, 1976; Hummell und Ziegler, 1976; Kerlin- 
ger und Pedhazur, 1973). Die Anwendung dieses Verfahrens setzt voraus: 

(1) Die Konzeption eines linearen rekursiven Systems. 

(2) Die expliziten Variablen sind metrisch und fehlerfrei gemessen (zur Locke- 
rung dieser Annahmen siehe Hummell und Ziegler, 1976). 

(3) die impliziten Variablen e (vgl. Abb. 3), welche die endogenen Variablen 
beeinflussen, sind mit keiner anderen Variablen des Systems korreliert. 

(4) Alle Beziehungen zwischen den Variablen sind ausschlieBlich linear und 
additiv. 

(5) Interaktionseffekte gibt es nicht. 

’) Diese Darstellungen unterstellen eine multiple Regressionsanalyse experimenteller 
Daten, die immer dann moglich ist, wenn varianzanalytische Strukturmodelle mit fe- 
sten Effekten den Daten zugrunde liegen. 
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Konnen diese Annahmen fur die Beispiele in Abb. 3a und 3b als gultig unter- 
stellt werden, und liegen die Variablen dieser Systeme als Standardwerte Z mit 
dem Mittelwert o und der Standardabweichung l vor, laBt sich fur die Daten 
des Modells in Abb. 3a schreiben: 



1) Z, = e, 

2) Z 2 = aZ 3 + e 2 

3) Z 3 = bZ 2 + cZ 2 + e 3 , 

wobei a, b, c Schatzungen der Parameter a', b', c' sind. M ultipliziert man 
Gleichung 2) mit Z lf summiert uber alle N Probanden und dividiert durch N, 
erhalt man: 



r 12 = a. 

Die gleiche Verfahrensweise fuhrt zu: 

r 13 = b + cr 12 
r 23 = br 12 + c, 

wobei die beiden letzten Gleichungen zur Schatzung der Pfadkoeffizienten b 
und c verwendet werden: 

U r 13 - r 12 r 23 A>3 - r 12 r 13 

b 1-4 c ~ HT' 

Das in Abb. 3a veranschaulichte System ist vollstandig, und wie gezeigt wor- 
den ist, werden alle moglichen Korrelationen benotigt, um die EinfluBgroBen 
(Pfadkoeffizienten) zu schatzen. Sofern also keine Vorinformationen uber die- 
se GroBen vorliegen, lassen sich keine Korrelationen zwischen den Variablen 
eines vollstandigen Systems prognostizieren. Dies trifft auch fur das Experi- 
ment zu, soweit es bisher besprochen wurde. Im Unterschied zum Experiment 
wird aber in einer vollstandigen linearen Kausalstruktur die kausale Wirkung 
auf direkte und indirekte Einflusse zuruckgefuhrt. Dies wird sichtbar, wenn in 
den Gleichungen fur r 13 und r 23 a fur r 12 eingesetzt wird: 

r u = b + ac 
r 23 = c + ab. 

r !3 ist also eine Schatzung des kausalen Einflusses von Z x auf Z 3 innerhalb der 
linearen Kausalstruktur in Abb. 3a, der sich aus einer direkten Wirkung b und 
einer indirekten Wirkung ac zusammensetzt. Auch Z 2 hat einen direkten (c) 
EinfluB auf Z 3 , aber keinen indirekten, da von Z 2 kein weiterer Pfad nach Z 3 
fuhrt: ab gibt hier die in r 23 enthaltene Scheinbeziehung an. 



Vollstandige Modelle nun lassen sich, genau wie dem Experiment zugrunde 
liegende Modelle, nur derart prufen, daB fur die Pfadkoeffizienten getestet 
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wird, ob sie statistisch gesehen von Null abweichen. Ergibt sich, daB alle 
Pfadkoeffizienten von Null abweichen, ist dies noch keine Bestatigung fur das 
geprufte vollstandige Modell. Jede andere vollstandige lineare Kausalstruktur 
mit den gleichen expliziten Variablen wurde gleichermaBen gut fur die Daten 
passen. Wenn jedoch zusatzlich eine zeitliche Ordnung zwischen den Varia- 
blen postuliert werden kann, derart z.B., daB wie in Abb. 3a Al vor IW und 
IW vor ZN steht, konnte das Model I als bewahrt angesehen werden. Ist jedoch 
wenigstens einer der Pfadkoeffizienten Null, kann ein unvollstandiges Modell 
formuliert werden, in dem nur einige Korrelationen zur Schatzung der Pfad- 
koeffizienten benotigt werden. In diesem Fall lassen sich andere Korrelationen 
prognostizieren, und die Prognosen konnen mit den tatsachlichen erhaltenen 
Daten verglichen werden. 

Wenn die empirisch erhaltenen Korrelationen zu Abb. 3a bei N = 100 Proban- 
den r I2 = 0.40, r 13 = 0.25 und r 23 = 0.60 betragen, laBt sich ermitteln: 

a = 0.40 b = 1/ 84 c = 50/ 84. 

Da b nahezu Null ist, wurde das Modell aus Abb. 3b formuliert, dessen 
Strukturgleichungen fur Stichprobendaten lauten: 

4) Z, = e, 

5) Z 2 = fZ i + e 2 

6) Z 3 = gZ 2 + e 3 . 



Durch Multiplikation von Gleichung 5) mit Z v Aufsummierung und Division 
durch N ergibt sich: 

r 12 = f- 

Ein entsprechendes Vorgehen fuhrt zu: 
ri3 = gr 12 = fg. 

r 23 = 9- 

g kann also auf zweierlei Weise geschatzt werden. Aus g = r 23 ergibt sich die 
Prognose fur eine Korrelation, die zur Schatzung der Pfadkoeffizienten nicht 
benotigt wird: 



1*13 r l2 r 23 — 0.24. 

Verglichen mit dem tatsachlichen Wert r 13 = 0.25 ist die Prognose recht genau, 
und man kann auf einen Signifikanztest verzichten. Ist die Ubereinstimmung 
nicht derart deutlich, muB aus rl 3 = r 12 r 23 eine Prognose abgeleitet werden, die 
sich statistisch prufen laBt. Wurde man folgern, daB die Partial korrelation 
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_ r l3 r 12 r 23 

Vl— r \ 2 Vl— rf 3 

Null sein mul$, so ginge in diese Folgerung die modellunvertragliche Annahme 
ein, daft Z 2 auf Z x und Z 3 einwirkt (vgl. Abb. 3b). Folgert man jedoch, dal$ die 
semi parti el I e Korrelation 



r l(3-2) — 



r 13 ~ r 12 r 23 

Vl - r| 3 



Null ist, so liegt eine modellvertragliche Prognose vor, in die die Annahme 
eingeht, dal$ Z 2 sich auf Z 3 auswirkt. Diese Prognose I a(5t sich statistisch 
prufen. 



Nunmehr soil die rekursive Pfadanalyse auf ein komplexeres Beispiel ange- 
wendet werden. Dieses Beispiel ist der experimentellen Psychologie entnom- 
men (ein komplexes Beispiel aus der Korrelationsforschung findet sich bei 
Brandtstadter, 1976). Auch im Experiment ist es nicht immer moglich, die 
verschiedenen Variablen eines rekursiven Systems unabhangig voneinander so 
zu variieren, daft nur direkte kausale Einflusse analysiert werden konnen. Will 
man z. B. den EinfluR der Bildhaftigkeit des Lernmaterials auf die Gedachtnis- 
leistung prufen, so sind andere Variablen mit der Bildhaftigkeit konfundiert. 
So entsteht etwa beim Lernen von Satzen das Problem, ob die Bildhaftigkeit 
Oder die Verstandlichkeit der Satze die G edachtni si ei stung determiniert. Wip- 
pich und Bredenkamp (1979) haben argumentiert, dal5 die Bildhaftigkeit der 
Satze die Variable „Verstandlichkeit" beeinfluRt und nicht umgekehrt. Nimmt 
man die Annahmen hinzu, daft die Bildhaftigkeit der Substantive in Subjekt- 
und Objektposition die Bildhaftigkeit des Satzes determinieren, so laBt sich 
das Modell in Abb. 4 formulieren: 





1 

e 2 



Abb. 4: 
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Die G edachtni si ei stung wurde unter funf verschiedenen experimental I en Be- 
dingungen erhoben, die erst spater beschrieben werden sollen. Entsprechend 
wird diese Variable in Tab. 1, die die empirisch erhaltenen Korrelationen 
wiedergibt, mit 5a bis 5e bezeichnet. Folgende Strukturgleichungen lassen sich 
nach dem Modell in Abb. 4 fur die Daten schreiben: 

7) Z, = e, 

8} Z 2 =e 2 

9) Z 3 = aZ x + bZ 2 + e 3 

10) Z 4 = cZ 3 + e 4 

11) Z 5 = dZ 3 + fZ 4 + e 5 



Tabelle 1: 





1 


2 


3 


4 


1 

2 


0.93 








3 


0.96 


0.96 






4 


0.90 


0.90 


0.93 




5a 


0.78 


0.74 


0.73 


0.75 


5b 


0.82 


0.78 


0.80 


0.74 


5c 


0.91 


0.92 


0.93 


0.87 


5d 


0.21 


0.21 


0.22 


0.26 


5e 


0.86 


0.87 


0.88 


0.83 



Durch M ultiplikation der Gleichung 9) mit Z x (bzw. Z 2 ), Aufsummierung und 
Division durch N erhalt man: 

r 13 = a + br 12 
r 23 = ar 12 + b 



Diese beiden Gleichungen genugen, um a = 0.50 und b = 0.50 zu schatzen. 2 ) 
Weiterhin laRt sich zeigen, dal$ 

r 34 = c = 0.93. 

Da r 14 und r 24 fur keine Schatzung benotigt werden, lassen sie sich prognosti- 
zieren: 



0.89 (tatsachlicher Wert: 0.90) 



r 14 = cr 13 = ac + bcr 12 
r 24 = cr 23 = acr 12 + be = 0.89 (tatsachlicher Wert: 0.90). 
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Weiterhin laBt sich zeigen, daB: 

r 15 = dr 13 + fr H = ad + bdr 12 + acf + bcfr 12 

r 2 5 = dr 23 + fr 24 = adr 12 + bd + acfr 12 + bcf 

r 35 = d + fr 34 = d + cf 

r 45 = dr 34 + f = cd + f. 

Fur zwei unbekannte GroBen d und f stehen vier Gleichungen zur Verfligung; 
zwei werden jedoch nur benotigt. Entscheidet man sich dafttr, die Gedachtnis- 
leistung aus der Bildhaftigkeit des Subjekts und Objekts (Zj, Z 2 ) prognostizie- 
ren zu wollen, schatzt man aus den Gleichungen fur r 35 und r 4 5 die GroBen d 
und f. Tab. 2 enthalt die Werte fur d, f. und r 2 5 . Beim Vergleich mit den 
tatsachlich erhaltenen Korrelationen aus Tab. 1 fallt die gute Ubereinstim- 
mung auf. Ferner fallt auf, daB vermutlich nur fur Variable 5 a das vollstandige 
Modell aus Abb. 4 benotigt wird, wahrend flir die Variablen 5b, 5c und 5e das 
Modell in Abb. 5a und fur Variable 5d das Modell in Abb. 5b ausreicht. 

Tabelle 2: 





d 


f 


r 15 


1*25 


Variable 5a 


0.24 


0.53 


0.70 


0.70 


5b 


0.83 


-0.03 


0.77 


0.77 


5c 


0.89 


0.04 


0.89 


0.89 


5d 


-0.16 


0.41 


0.21 


0.21 


5e 


0.80 


0.09 


0.85 


0.85 



Aus den Strukturgleichungen fur Modell 5a lassen sich dieselben Pfadkoeffi- 
zienten a, b, c wie flir das Modell 4 gewinnen, auBerdem ist jetzt d = r 35 . 
Nunmehr laBt sich prognostizieren fur Variable 5: 

r 15 = dr 13 = ad + bdr 12 
r 25 = dr 23 = adr 12 + bd 
r 45 = dr 34 = cd. 



‘) Bei der Schatzung der Pfadkoeffizienten konnen sich erhebliche Fehler einstellen, 
wenn die Variablen so hoch miteinander korrelieren, wie das in diesem Beispiel der Fall 
ist. Um derartige Schatzfehler zu vermeiden, sollte man deshalb mit einem Modell 
arbeiten, das nur die Variablen Z,, 2, und 25 erhalt. Nur zur Demonstration eines 
komplexeren Modelies wird hier auf diese empfehlenswerte Reduktion verzichtet. 

Grundsatzlich ist zur Prognose der Korrelationen folgendes zu sagen: r, mit i < j wird 
immer gewonnen, indem die Gleichung flir Zi mit Z; multipliziert wird. Die Prognose 
erfolgt durch Verkniipfung der Pfadkoeffizienten und nicht analysierter Korrelationen 
(in diesem Beispiel r 12 ). 
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e, 




Abb. 5a: 




Abb. 5b: 



Dieses Modell, das eine Beziehung weniger als Modell 4 postuliert, ermoglicht 
auch eine Prognose mehr. Es ergeben sich, wie ein Vergleich der Tab. 3 mit 
Tab. 1 zeigt, gute Ubereinstimmungen. 

Tabelle 3: 





r 15 


r 25 


r 35 


Variable 5 b 


0.77 


0.77 


0.74 


5c 


0.89 


0.89 


0.86 


5e 


0.84 


0.84 


0.82 



Aus den Strukturgleichungen fur Modell 5b lassen sich wiederum dieselben 
Pfadkoeffizienten a, b, c schatzen, und f ergibt sich zu r 45 . Prognostizieren 
lassen sich fur Variable 5: 

r i 5 = £r !4 = fcr 13 = acf + bcfr 12 
r 2 5 = fr 24 = fcr 23 = acfr 12 + bcf 
r 35 = fr 34 = fc. 

Die Prognosen und tatsachlichen Werte fiir Variable 5d enthalt Tab. 4. 
Tabelle 4: 



fi 5 = 0.23 r 25 = 0.23 r 35 = 0.24 

r 15 = 0.21 r 25 = 0.21 r 35 = 0.22 



Kommen wir nun auf die Interpretation zu sprechen. Als zentral soil die 
Aufklarung des Zusammenhangs zwischen der Bildhaftigkeit der Satze und der 
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Gedachtnisleistung angesehen werden. Das Modell in Abb. 4 postuliert einen 
direkten EinfluB, dessen GroBe durch den Pfadkoeffizienten d geschatzt wird, 
sowie einen indirekten EinfluB cf. Dieses Modell wurde fur Variable 5a akzep- 
tiert, wobei d = 0.24 und cf = 0.49. Bei Variable 5a handelt es sich um die 
Reproduktionsleistung nach intentionalem Lernen: Die Vpn wuBten, daB die 
Satze reproduziert werden muBten. In dieser Situation besteht also ein direkter 
und ein liber die Verstandlichkeit vermittelter EinfluB der Bildhaftigkeit der 
Satze auf die Reproduktionsleistung. Ftir die Variablen 5b, 5c und 5e wurde 
das Modell in Abb. 5a konzipiert, nachdem sich bei der Berechnung der 
Pfadkoeffizienten fur das komplexere Modell in Abb. 4 herausgestellt hatte, 
daB f nahe Null liegt; auch die Korrelationen lieBen sich mit Hilfe dieses 
Modells gut reproduzieren. Wenn man will, kann man mit Hilfe statistischer 
Hypothesentests den Vergleich beider Modelle vomehmen. Da im Modell der 
Abb. 4 die Variable ..Gedachtnisleistung" durch die Pradiktoren Z 3 und Z 4 , im 
Modell der Abb. 5a jedoch nur durch den Pradiktor Z 3 determiniert wird, 
sollte statistisch gesehen Z 4 keine zusatzliche Varianzaufklarung leisten: R| 3i4 
- r 5 3 sollte nicht signifikant von Null abweichen. Dieser Betrag gibt die GroBe 
der quadrierten semipartiellen Korrelation zwischen Gedachtnisleistung und 
Verstandlichkeit wieder, nachdem aus dieser Variablen der EinfluB der Bildhaf- 
tigkeit der Satze ausgeschaltet wurde. Ftir die Variablen 5b, 5c, 5e ist dieser 
Betrag mit 0.01, 0.01 und 0.01 sehr klein und nicht signifikant. Die Tests, die 
R- 5 - 3,4 - r 53 au f Signifikanz priifen, sind Priifungen der Bedeutsamkeit des 
Pfadkoeffizienten f aus Modell 4. Das Modell in Abb. 5a postuliert nur einen 
direkten EinfluB der Bildhaftigkeit der Satze auf die Gedachtnisleistung. Bei 
den Variablen 5b und 5c handelt es sich ebenfalls um Gedachtnisleistungen 
nach dem intentionalen Lernen. Allerdings hatten die Pbn Zusatzaufgaben 
wahrend des Lernens zu verrichten, die nach dem levels of processing-Ansatz 
verschiedene Verarbeitungsformen induzieren sollten: Ftir Variable 5b sollte 
die Bildhaftigkeit eine geringere Rolle als ftir Variable 5c spielen, was auch, 
wenn man die beiden Korrelationen r 35 vergleicht, der Fall war. Uberraschend 
ist allerdings der Befund, daB auch fiir Variable 5b nur ein direkter EinfluB der 
Bildhaftigkeit besteht. Verglichen mit Variable 5a fiihrt also beim intentionalen 
Lernen jede der verwendeten Zusatzaufgaben zu einem direkten EinfluB der 
Bildhaftigkeit; nur ohne Zusatzaufgabe besteht auch ein indirekter EinfluB. 
Nach inzidentellem Lernen (Variablen 5d und 5e) besteht nur nach „kognitiv 
tieler" Verarbeitung (Variable 5e) ein direkter Effekt der Bildhaftigkeit, wah- 
rend nach „oberflachlicher“ Verarbeitung (Variable 5d) allein ein indirekter 
Effekt besteht. Die Angemessenheit des Modells in Abb. 5b fiir Variable 5d 
kann dadurch getestet werden, daB wegen r 35 =cf = r 34 -r 45 folgt: Die semipertiel- 
le Korrelation r 3 ( 54 ) weicht nicht signifikant von Null ab. Der Wert fiir diese 
Korrelation betragt fiir Variable 5d -0.02 und ist insignifikant. 

Die vorgetragenen Ergebnisse haben u.E. bisher nicht gesehene Konsequen- 
zen beim Versuch der Zusammenfiihrung des lelvels of processing- Ansatzes 
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mit der „imagery“-Theorie Paivios, auf die hier nicht einzugehen ist. Einige 
dieser Ergebnisse kamen unerwartet; ihre Interpretation ist im Rahmen der 
behandelten Modelle giiltig. Die Richtigkeit derartiger Modelle laBt sich 
selbstverstandlich nicht beweisen. Es sind immer andere Modelle denkbar, die 
ebenfalls gut fiir die Daten passen. Die Pfadanalyse ist, wie Kerlinger und 
Pedhazur (1973) zu Recht feststellen, ein Verfahren, das die Zuriickweisung 
unhaltbarer Kausalmodelle eher als die Bestatigung eines von verschiedenen 
rivalisierenden Kausalmodellen leistet. Die Pfadanalyse ist auch kein Verfah- 
ren, das zu Modellen fiihrt! Die Theorie- oder Modellbildung wird dem For- 
scher nicht abgenommen. Sie ist unabdingbare Voraussetzung fiir die Anwen- 
dung der Pfadanalyse, die ein Verfahren zur Prufung von Theorien ist und 
moglicherweise Hinweise, wie gezeigt wurde, dafiir gibt, an welchen Stellen 
eine Theorie zu modifizieren ist. Leider sind die Moglichkeiten der Pfadanaly- 
se zur Prufung kausaler Hypothesen in der Korrelationsforschung bisher viel 
zu selten genutzt worden. Einen methodisch vollig anders gearteten Ansatz 
zur Analyse von Kausalbeziehungen beschreibt Lehmann (1980). 

Das behandelte Beispiel aus der experimentellen Psychologie zeigt Analyse- 
moglichkeiten auf, wenn unabhangige Variablen konfundiert sind: Wenigstens 
eine dieser Variablen wird als endogen konzipiert. Dieser Fall liegt bei der 
Anwendung der Kovarianzanalyse generell vor: Im Rahmen eines rekursiven 
linearen Modells betrachtet wird angenommen, daB die Kovariate X sich auf 
die endogene unabhangige Variable U und die abhangige Variable Y auswirkt 
(vgl. Abb. 6a). Die Kovarianzanalyse priift, ob die EinfluBgroBe c’ Null ist, 
indem die semipartielle Korrelation zwischen Y und U, aus der der EinfluB der 
Kovariaten eliminiert wird, auf Signifikanz getestet wird. Dieses Vorgehen ist 
sinnvoll, da U nur einen direkten kausalen EinfluB auf Y ausiibt. In der Korre- 
lation zwischen U und Y ist auch noch eine Scheinbeziehung zwischen beiden 
Variablen enthalten (a’b’), und deshalb interessiert allein die GroBe von c, die 
den gesamten kausalen EinfluB von U auf Y erfaBt (ubrigens laBt man in der 
experimentellen Psychologie die Scheinbeziehung durch zufallige Zuweisung 
der Probanden auf die experimentellen Bedingungen von vomherein Null wer- 
den, da in diesem Fall a’=0). 




Abb. 6a: Modell fiir die 

Kovarianzanalyse. 



Abb. 6b: Unzutreffendes Modell 

fur die Kovarianzanalyse. 
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Nun finden sich haufig Beispiele fur die Verwendung einer Kovarianzanalyse 
in der Situation, die in Abb. 6b dargestellt ist. In diesem Fall wirkt sich die 
unabhangige Variable auf die Kovariate aus, und man mochte wissen, ob ein 
EinfluB von U auf Y besteht, nachdem die Unterschiede in der Kovariaten 
statistisch ausgeglichen wurden. Die Anwendung der Kovarianzanalyse ist in 
diesem Fall nicht gerechtfertigt. r uy gibt in Abb. 6b den gesamten EinfluB von 
U auf Y wieder. Will man priifen, ob ein direkter EinfluB von U auf Y besteht, 
testet man die semipertielle Korrelation r u(Y .x) auf Signifikanz. 



2. Zt/ m Problem der Validitdt des statistischen Schlusses 

Kausalmodelle werden in der experimentellen Psychologie und der Korrela- 
tionsforschung statistisch iiberpruft. Diese Feststellung fiihrt zur Frage der 
Validitat des statistischen Schlusses. In der experimentellen Psychologie impli- 
zieren psychologische Hypothesen haufig die zur Nullhypothese eines statisti- 
schen Tests alternative Hypothese, so daB auf das Zutreffen der Nullhypothe- 
se erkannt werden konnen muB, damit die psychologische Hypothese falsifi- 
zierbar ist. Dies ist nur dann moglich, wenn die Wahrscheinlichkeit des (3- 
Fehlers ebenso wie die des a-Fehlers kontrolliert wird. Es wird also empfoh- 
len, eine minimale EffektgroBe festzulegen, die mit der Wahrscheinlichkeit 
1 — (3 entdeckt werden soil, und a und B als kleine Betrage festzulegen (Breden- 
kamp, 1969 , 1972 ). Fur verschiedene statistische Verfahren laBt sich dann der 
benotigte Stichprobenumfang bestimmen. Die bei Cohen (1977) publizierten 
Tabellen erleichtern diese Bestimmung wesentlich. Das hier nur andeutungs- 
weise vorgestellte Verfahren (ausfiihrlich dazu Bredenkamp, 1980; Hager und 
Westermann in diesem Band) ist auch dann notwendig, wenn die statistische 
Nullhypothese durch die psychologische Hypothese impliziert wird, um zu 
viele unverdiente Bestatigungen der psychologischen Hypothesen zu vermei- 
den. AuBerdem ist eine derartige Planung auch fur die pfadanalytische Uber- 
priifung rekursiver linearer Systeme vonnoten, wenn auch hier statistische 
Tests zur Priifung des Modells durchgefuhrt werden und man sich nicht mit 
der augenscheinlichen Ubereinstimmung der reproduzierten mit den tatsach- 
lich erhaltenen Korrelationen begniigt. Schwierigkeiten bereitet dieses Verfah- 
ren insofern, als zu Beginn eines Forschungsprogramms die Festlegung einer 
minimalen Effektstarke unmoglich erscheint. Diesem Problem ist man jedoch 
nicht entronnen, wenn man auf eine derartige Festlegung verzichtet, da man 
durch die unbegriindete Wahl des Stichprobenumfangs auf eine minimale Ef- 
fektstarke festgelegt worden ist, die mit vorgegebenen Wahrscheinlichkeiten a 
und 1-B entdeckt werden kann. In diesem Fall bleibt auch die Frage, ob 
Versuchsergebnisse durch andere Forscher repliziert worden sind, unent- 
scheidbar (vgl. Bredenkamp, 1980). Wenn jedoch anerkannt wird, daB psy- 
chologische Hypothesen oder Kausalmodelle nicht aufgrund einzelner Unter- 
suchungen, sondern ganzer Forschungsprogramme falsifiziert werden kon- 
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nen, laBt sich das Problem der Festlegung der EffektgroBe entscharfen. Legt 
man diese „willkurlich“ auf einen bestimmten Wert wie z.B. R 2 = 0.10 fest, so 
hat sich eine psychologische Hypothese, die die statistische Alternativ- 
hypothese impliziert, in einem Forschungsprogramm dann bewahrt, wenn 
Q = a x (l — a) m x /(l — |3) x |3 m x < 1, wobei m die Anzahl der Untersuchungen 
und x die Anzahl signifikanter Resultate ist. Aber auch bei Q > 1 konnte 
behauptet werden, daB die psychologische Hypothese gestiitzt ist; da von 
einem Minimaleffekt R 2 = 0.10 ausgegangen wurde, der sich als zu groB 
herausgestellt habe, miisse B tatsachlich viel groBer als festgelegt gewesen sein, 
so daB etwa 3 von 10 signifikanten Ergebnissen die Hypothese eines kleineren 
Effekts stiitzen. Eine derartige Behauptung miiBte begriindet werden konnen 
(z.B. zu geringe Durchschlagskraft der unabhangigen Variablen), und nur im 
Falle einer Begriindung (und nicht einer beliebigen Exhaustion ,,negativer“ 
Befunde) ware eine priifbare Hypothese generiert worden. An dieser Stelle 
zeigt sich, daB mit der skizzierten Vorgehensweise Falsifikationen logisch und 
empirisch nicht erzwungen werden konnen. Der Forscher kann sich aufgrund 
in diesem Sinne geplanter Untersuchungen nur zur Falsifikation und zum 
Neuentwurf von Hypothesen entschlieflen. Die Planung der Untersuchungen 
ist so anzulegen, daB ein derartiger EntschluB iiberhaupt ermoglicht wird. 
Eine Planung, wie sie hier skizziert wurde (ausfuhrlich dazu Bredenkamp, 
1980), wiirde vermutlich auch erreichen, daB sowohl seitens des Forschers wie 
der Herausgeber von Fachzeitschriften „negative“ Resultate veroffentlicht 
werden, so daB die haufig beklagte Kumulation des statistischen a-Fehlers in 
den Publikationen vermieden werden konnte. 

Gegen die skizzierte Vorgehensweise sind durch Deppe (1977) und Glaser 
(1979) Bedenken angemeldet worden. Deppe (1977) weist, ganz im Sinne der 
obigen Ausfuhrungen, darauf hin, daB ein Modell durch das Ergebnis eines 
Signifikanztests logisch nicht zu widerlegen ist. Andererseits schreibt er: 
„Wenn in vielen Experimenten zum Begriffserwerb z.B. ein negativ beschleu- 
nigter Abfall der Fehlerkurven beobachtet wird, und wenn ein Modell hier 
einen konstanten Abfall der Fehler voraussagt, ist eher anzunehmen, daB das 
Modell systematisch falsche Annahmen macht, als wenn die Fehlerkurve nur 
einmal beobachtet wurde“ (Deppe, 1977, 166). iiber derartige Abweichungen 
der tatsachlichen von den prognostizierten Resultaten kann man mit Hilfe 
eines Signifikanztests entscheiden, und wenn aus mehreren Untersuchungen 
die dem Modell widersprechenden Ergebnisse der Tests konvergieren, kann 
man sich zu einer Falsifikation und Abanderung des Modells entschlieBen, 
vorausgesetzt, die Tests wurden im Sinne obiger Ausfuhrungen geplant. Die 
Ausfuhrungen Deppes scheinen uns der dargestellten Konzeption des Hypo- 
thesentestens nicht zu widersprechen, wenn anerkannt wird, daB die Falsifika- 
tion nur aufgrund eines methodologischen Beschlusses moglich ist, z.B.: „Ak- 
zeptiere bei kleinen Fehlerwahrscheinlichkeiten H 0 als eine der psychologi- 
schen Hypothese widersprechende Populationsaussage" (vgl. Bredenkamp, 
1980). 
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Glaser (1979, 135) anerkennt das skizzierte Verfahren als sinnvoll, betont 
jedoch, daB es nicht der Falsifikation von psychologischen Hypothesen dienen 
konne. Nur deterministisch formulierte Hypothesen sind falsifizierbar, nicht 
jedoch statistische Hypothesen, da sie kein Ereignis verbieten. Diese Feststel- 
lungen treffen selbstverstandlich zu und stimmen mit der Aussage Deppes 
iiberein, daB das Ergebnis eines Signifikanztests logisch ein Modell nicht wi- 
derlegen konne. Glaser (1979) scheint zwar die Moglichkeit zu akzeptieren, 
aufgrund eines statistischen Tests eine vorgeordnete psychologische Hypothe- 
se zu verwerfen - von Falsifikation sollte s.E. nicht gesprochen werden 
wahnt sich aber auf sichererem Boden, wenn psychologische Gesetze von vorn- 
herein als Wahrscheinlichkeitsaussagen formuliert werden, die nicht falsifiziert 
werden konnen. Dem ist jedoch entgegenzuhalten, daB die de facto bei der 
Durchfiihrung statistischer Tests gepriiften statistischen Hypothesen selten 
mit den psychologischen identisch sind. Beispiele fiir diese Behauptung finden 
sich etwa bei Bredenkamp (1972, 1980) und bei Hager und Westermann in 
diesem Band. Psychologische Hypothesen beziehen sich auf individuelles Ge- 
schehen; die in der empirischen Psychologie iiblichen statistischen Tests prii- 
fen aber Populationsaussagen iiber die Gleichheit oder Verschiedenheit von 
Parametem. Will man diese Priifungen nicht von vornherein als sinnlos be- 
trachten, muB ein Bezug zwischen psychologischen Hypothesen und Popula- 
tionsaussagen hergestellt werden. Deterministisch formulierte psychologische 
Hypothesen implizieren Populationsaussagen. Auf erstere richtet sich der Fal- 
sifikationsanspruch. Falsifikationsinstanzen sind statistische Populationsaus- 
sagen, liber deren Zutreffen entschieden werden muB. Dabei ist zu gewahrlei- 
sten, daB die mit dieser Entscheidung verbundenen Fehlermoglichkeiten ge- 
ring sind, und genau dazu dient das skizzierte Verfahren. Wenn Glaser (1979, 
S. 125) sagt, daB „eine deterministische psychologische Hypothese . . . mit 
einem widersprechenden Datum von einer Person, die dem Individuumbe- 
reich der Hypothese angehort, erledigt" ist, scheint er vorauszusetzen, daB 
immer fiir einzelne Personen singulare Existenzsatze formuliert werden kon- 
nen, die im Einklang oder im Widerspruch zur Hypothese stehen. Dies aber 
ist in der Psychologie eben haufig nicht der Fall (vgl. Bredenkamp 1972, 1980), 
und dennoch sind die zu priifenden Hypothesen vielfach deterministisch for- 
muliert. Die implikative Verkniipfung zwischen psychologischer Hypothese 
und Populationsaussage und daraus resultierende Veranderungen am in der 
Psychologie iiblichen statistischen Test scheinen uns der einzige Weg zu sein, 
dieser Situation gerecht zu werden. Freilich konnen dann nur bei Vereinba- 
rung methodologischer Regeln Hypothesen falsifiziert werden. Dies aber ist 
keine Besonderheit des Forschungsprozesses, die erst durch das statistische 
Hypothesentesten ins Spiel kommt. Popper (1966) hat in seiner „Fogik der 
Forschung" immer wieder darauf hingewiesen, daB auch singulare Existenz- 
satze Dispositionspradikate enthalten, die nicht vollstandig auf beobachtbare 
Gegebenheiten zuriickgefiihrt werden konnen. Die Basissatze miissen deshalb 
innerhalb der Falsifikationstheorie Poppers (1966) durch Festsetzung aner- 
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kannt werden. Ubernehmen statistische Populationsaussagen die Funktion 
von Basissatzen, so miissen methodologische Festsetzungen vereinbart wer- 
den, die ihre Anerkennung ermoglichen. Die von Glaser (1979) akzeptierte 
Modifikation des statistischen Hypothesentestens scheint uns in der Psycholo- 
gic iiberhaupt nur unter dieser Zielsetzung begriindbar zu sein. Bei der pfad- 
analytischen Uberpriifung linearer Kausalstrukturen verhalt es sich nicht an- 
ders. Auch diese Modelle sind im Grunde deterministisch formuliert. Durch 
die Hereinnahme der impliziten Variablen wird behauptet, daB die Variation 
der endogenen Variablen vollig aufgeklart werden kann. Da diese Variablen 
unbekannt sind, lassen sich aus dem Modell jedoch nur Korrelationen zwi- 
schen den expliziten Variablen ableiten (und nicht etwa linear funktionale 
Beziehungen), und aufgrund dieser Korrelationen wird das Modell uberpriift. 

Es sei hier noch kurz auf eine erweiterte Theorie des statistischen Hypothesen- 
testens eingegangen, die Witte (1980) formuliert hat. Danach vollzieht sich die 
Beurteilung von statistischen Hypothesen in folgenden Schritten: 



(1) a und B werden klein gewahlt; es wird eine EffektgroBe, die mit der 
Wahrscheinlichkeit 1 — 13 entdeckt werden soil, festgelegt, und der benotig- 
te Stichprobenumfang wird bestimmt. Dieses Vorgehen entspricht den 
bisherigen Ausfiihrungen. 

(2) Anstelle eines Signifikanztests wird ein likelihood-Test (vgl. dazu Wendt in 
diesem Band) fiir zwei einfache Hypothesen durchgefuhrt, dem der Vor- 
zug gegeniiber dem Signifikanztest gegeben wird, weil er nur das eingetre- 
tene Ergebnis (etwa X=2) und nicht auch groBere Abweichungen vom 
Parameter |i 0 =0 unter H 0 verarbeitet. Entspricht die Effektstarke etwa 
einem Parameter pij — 5, so lautet der Test: 



L(jx 0 =0/X=2) 
L((.i] = 5/X=2) 



Der Wert fiir ij) muB die Grenze gi = 



1 -a 
(3 



iiberschreiten, wenn H 0 , oder 



g2 



1-P 



unterschreiten, wenn H besser gestiitzt ist, wobei diese Gren- 



zen der Theorie sequentieller Verfahren von Wald (vgl. dazu Wendt in 
diesem Band) entnommen wurden. Der Prufschritt ist nur dann befriedi- 
gend ausgefallen, wenn gj iiber- oder g 2 unterschritten wird. 

(3) Sind die beiden ersten Prufschritte positiv ausgegangen, dann wird ermit- 
telt, ob die groBere Stiitzung der einen Hypothese auf einem hohen likeli- 
hood-Wert der akzeptierten oder auf einem geringen likelihood-Wert der 
abgelehnten Hypothese beruht, indem die likelihoods an der maximalen 
li kelihood gemessen werden. Dabei muB der kritische Quotient Q c = 1 - 
Va(l — P) durch die in Schritt 2 akzeptierte Hypothese erreicht oder iiber- 
schritten werden. 

(4) SchlieBlich ist die GroBe des Effekts zu schatzen, wobei Witte (1980) als 
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Faustregel angibt, daB nicht weniger als 10% der totalen Varianz aufge- 
klart sein sollten. 

Die besser gestiitzte Hypothese wird akzeptiert, wenn alle Priifschritte positiv 
ausgefallen sind; nur dann wird auch die weniger gestiitzte Hypothese abge- 
lehnt. Falls wenigstens einer der vier Priifschritte negativ ausfallt, wird keine 
Entscheidung getroffen. 

Kritisch ist zu diesem Vorgehen anzumerken, daB die Priifschritte 2 und 3 
negativ ausgehen konnen, wenn ein sehr groBer Effekt besteht, der vierte 
Priifschritt also positiv ausgefallen ist. Dies ware etwa der Fall, wenn fiir 
normal verteilte Daten die Hypothesen p, c =0 und |ii= 1 bei a=l getestet wer- 
den, X aber 10 oder groBer ist. Diese Schwierigkeit hangt damit zusammen, 
daB nur einfache statistische Hypothesen getestet werden. Selten jedoch liegt 
in der Psychologie dieser Fall vor. 

Bei den besprochenen Konzeptionen fand das Bayessche Hypothesentesten 
keine Beriicksichtigung, das Wendt in diesem Band ausfiihrlich darstellt und 
favorisiert (zur Kritik an der Verwendung des Bayesschen Theorems beim 
statistischen Hypothesentesten, vgl. Riitzel, 1979, 1980). Die von Vertretern 
der Bayes-Statistik oft behauptete und auch aufgezeigte Voreingenommenheit 
von Signifikanztests gegen die Nullhypothese kann, wenn man einmal die 
Pramisse der Bayesianer, daB Verteilungsparameter eine Zufallsvariable sind, 
der Wahrscheinlichkeiten (oder Wahrscheinlichkeitsdichten) zuzuordnen 
sind, akzeptiert, praktisch durch die eingangs beschriebene Kontrolle der 
Wahrscheinlichkeiten a und (3 und deren Identifikation mit kleinen Werten 
aufgehoben werden (vgl. dazu Bredenkamp, 1972). Allerdings kann man das 
Bayessche Theorem dann gut verwenden, wenn Hypothesen im Lichte ganzer 
Forschungsprogramme beurteilt werden und ermittelt werden soli, welche der 
statistischen Hypothesen besser gestiitzt ist. Unterteilt man den Parameter- 
raum in zwei Teilklassen H 0 und H 1; die zu Beginn eines Forschungspro- 
gramms beide fiir gleich wahrscheinlich gehalten werden, und zerlegt man die 
Menge aller moglichen Ergebnisse ebenfalls in zwei Teilklassen „signifikant“ 
und ,,insignifikant“, so ist bei Verwendung des Bayesschen Theorems immer 
die Wahrscheinlichkeit fiir H 0 im Lichte der Daten (P(H 0 /D)) groBer als die fiir 
H,, wenn der zuvor eingefiihrte Wert Q = a x (l -a) m_ 7( 1 — |3) x |3 m-x groBer als 1 
ist, da P(H 0 /D)=Q/(Q + 1). Unter den genannten Voraussetzungen ist Q ein 
Bayessches StiitzmaB; hinzu kommt, daB a und |3, wie besprochen, kontrol- 
liert wurden. 



3. Dynamische Modelle 

Die Zeit und damit korrelierte Veranderungen der Variablen wurden bisher 
nicht beriicksichtigt. Die in Abschnitt 1 besprochenen Modelle eignen sich 
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nach Hummell und Ziegler (1976) dann zur Darstellung kausaler Prozesse, 
wenn eine der folgenden Bedingungen erfullt ist: 

(1) Auf eine Anderung der exogenen Faktoren erfolgt sofort eine Anderung 
der endogenen Variablen. 

(2) Zum Zeitpunkt der Beobachtung befindet sich der ProzeB in einem Gleich- 
gewichtszustand: Die Werte aller Variablen andern sich nicht mehr. 

(3) Es liegt ein ProzeB zugrunde, der die Korrelationen einem asymptotischen 
Grenzwert zustreben laBt, der zum Zeitpunkt der Beobachtung annahernd 
erreicht ist. 

Die erste Annahme wird man haufig in der experimentellen Psychologie treffen miis- 
sen, wenn namlich sofort nach der Manipulation einer unabhangigen Variablen die 
abhangige Variable erhoben wird. Treten die Effekte jedoch zeitverzogert auf, so wiir- 
de das geprilfte experimentelle Kausalmodell falschlich falsifiziert werden. Sinnvoll ist 
die erste Annahme wohl nur als zutreffend zu unterstellen, wenn ausdriicklich die 
sofortige Gedachtnisleistung, die sofort eintretenden Stimmungsveranderungen usw. 
analysiert werden sollen, wenn also der Validitatsanspruch firr endogene Variablen von 
vornherein ausdriicklich auf den Zeitpunkt kurz nach der Manipulation der unabhangi- 
gen Variablen eingeengt wird. Anderenfalls muB die Bedingung (2) oder (3) erfullt sein. 
Allerdings laBt sich deren Zutreffen wohl selten uberprufen. In diesem Fall ist es 
ratsam, zu dynamischen Modellen iiberzugehen, die den Zeitparameter beriicksichtigen 
und die endogenen Variablen zu mehreren Zeitpunkten enthalten. 

Die Konzeption dynamischer Modelle fiihrt insofern zu Problemen bei der 
Schatzung der Pfadkoeffizienten, als die impliziten Faktoren, welche die endo- 
genen Variablen beeinflussen, nicht mehr als unkorreliert angesehen werden 
konnen. In Abb. 7 ist ein Modell mit einer exogenen Variablen zum Zeitpunkt 
t- 1 (die Zeit wird als diskrete Variable behandelt) und zwei endogenen Varia- 
blen aufgefiihrt, die zu verschiedenen Zeitpunkten erhoben wurden. Auf den 
ersten Blick unterscheidet sich dieses Modell von dem in Abb. 3a nicht. Es 
besteht jedoch ein Unterschied: Da die endogene Variable zu verschiedenen 
Zeitpunkten erhoben wurde, wird eine Korrelation (sog. Autokorrelation) 
zwischen den impliziten Faktoren U t _! und U t angenommen. Bei mehr als 
zwei MeBzeitpunkten konnen auch Autokorrelationen hoherer Ordnung ent- 
stehen (z.B. zwischen U t _ 2 und U t ). Wenn man nicht davon ausgehen kann, 
daB die Autokorrelationen Null sind, lassen sich die Pfadkoeffizienten auch 
nicht mehr so, wie bisher dargestellt, schatzen. Auf Modelle, die Autokorrela- 
tion einbeziehen, gehen Mobus und Nagl, die auch andere Moglichkeiten der 
Verlaufsanalyse untersuchen, in diesem Band ausfiihrlich ein (vgl. auch Schu- 
bo et al. in Band 4 dieser Enzyklopadie); Verteilungsfreie Analysen von Zeit- 
reihen behandelt ausfiihrlich Lienert (1978)). 

In der experimentellen Psychologie werden oftmals Veranderungen erfaBt, z.B. bei der 
Analyse von Lernkurven. Meistens wird eine varianzanalytische Auswertung vorge- 
nonimen, und es muB u.a. unterstellt werden, daB die Korrelationen zwischen den 
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Werten der abhangigen Variablen zu verschiedenen MeBzeitpunkten gleich groB sind. 
Verletzungen dieser Annahmen fiihren dazu, daB der F-Test zu haufig eine richtige 
Nullhypothese zurlickweist. Diesen Fehler versucht man dadurch zu vermeiden, daB 
die Anzahl der Freiheitsgrade entsprechend des AusmaBes der Heterogenitat der Kor- 
relationen zwischen den MeBwerten reduziert wird (vgl. dazu Fluyngh, 1978). Eine 
andere Moglichkeit besteht darin, die abhangigen Variablen nach bestimmten Regeln zu 
transformieren und multivariate Hypothesentests durchzufuhren, die alle Hypothesen 
unter weniger restriktiven Annahmen zu prttfen gestatten, welche bei der Erflillung der 
Voraussetzungen mit einer univariaten Varianzanalyse ebenfalls prufbar waren. Es las- 
sen sich also etwa auch Interaktionen zwischen einer oder mehreren Behandlungsvaria- 
blen mit deni Zeitfaktor auf Signifikanz priifen. Eine ausgezeichnete Darstellung des 
Vorgehens findet sich bei McCall und Appelbaum (1973). 



e 



t- 1 




Abb. 7: 



In dem Band der Enzyklopadie, deni dieses einflihrende Kapitel vorangestellt 
ist, findet sich schlieBlich eine Einflihrung in die Computer-Simulation psy- 
chischer Prozesse von Ueckert. Simulationsmodelle sind, wie der Autor be- 
tont, in der Regel als dynamische Modelle konzipiert. litre Besonderheit liegt 
darin, daB eine Theorie iiber den Gegenstandsbereich in eine Sprache iibersetzt 
werden muB, die der Rechner versteht, so daB er ,,in alien auftretenden Situa- 
tionen theoriegemaBes Verhalten zeigen kann. Dann kann das gleiche Experi- 
ment mit menschlichen und der ,,kiinstlichen“ Versuchsperson durchgefuhrt 
werden, und die Ergebnisprotokolle konnen miteinander verglichen werden" 
(Deppe, 1977, 126). 
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Ueckert hebt die verschiedenen Datenquellen hervor, die fur die Konzeption 
eines Simulationsmodells herangezogen werden konnen; dem Experiment 
komme wegen seiner methodologisch begriindeten Kiinstlichkeit nur geringe 
Bedeutung zu. Hierin erblicken wir allerdings keine Besonderheit von Simula- 
tionsmodellen. Fiir die Generierung von experimentell zu priifenden Hypo- 
thesen kommen auch alle moglichen Quellen in Frage, u.U. z.B. auch das 
einfiihlende Verstehen (vgl. dazu Patzig, 1973). Die experimentelle Kontrolle 
wird erst bei der Priifung der wie auch immer gefundenen Hypothese wichtig, 
um falschliche Bestatigungen oder Widerlegungen zu vermeiden. Wie das obi- 
ge Zitat von Deppe verdeutlicht, muB auch das Simulationsmodell iiberpriift 
werden, und wenn es sich auf menschliches Verhalten bezieht, so geschieht 
diese Priifung durch den Vergleich des „Verhaltens“ des Computers mit dem 
Verhalten von Menschen. Deppe (1977) zeigt, wie Simulationsmodelle der 
Konzeptidentifikation aufgrund derartiger Vergleiche abgeandert wurden. 
Nach Ueckert sind Simulationsmodelle nicht falsifizierbar, da sie aus einer 
logischen und einer empirischen Komponente bestehen. Der logische Kern 
bleibt unabhangig davon, welche empirischen Daten auftreten, unbeeinfluBt. 
Die empirische Komponente beinhaltet die Menge der intendierten Anwen- 
dungen eines Modells; deren Priifung kann nur ergeben, ob ein Modell in einer 
bestimmten Situation anwendbar ist oder nicht. Dieser urspriinglich fiir hoch 
entwickelte physikalische Theorien formulierte sog. non-statement view von 
Sneed kann wohl nur mit Einschrankungen auf Theoriebildungen in der Psy- 
chologic iibertragen werden (vgl. dazu Herrmann, 1976). Die Nicht-Anwend- 
barkeits-Interpretation erscheint fiir elaborierte und gut bewahrte psychologi- 
sche Theorien sinnvoll, wenn nicht eine andere Theorie vorhanden ist, deren 
Anwendbarkeitsbereich den des konkurrierenden Modells enthalt, zusatzlich 
aber noch andere Anwendungen zulaBt. Liegt also der Fall vor, daB in diesem 
Sinne etwa die Theorie der Konzeptidentifikation von Levine (1975, Kap. 11 
und 12) mit der von Bower und Trabasso (1964) verglichen werden kann, so 
ware aufgrund der Falsifikationstheorie die letztgenannte als falsifiziert zu 
bezeichnen, wahrend die von Levine als bewahrt gelten kann. Durch die For- 
mulierung beider Theorien in einer Sprache, die der Computer versteht, andert 
sich hieran nichts. 

Deppe (1977), der zu einer sehr ausgewogenen Beurteilung beim Vergleich von 
Simulationsmodellen mit mathematischen Modellen in der Psychologie ge- 
langt, stellt zunachst heraus, daB beide eine psychologische Theorie vorausset- 
zen. Sie sind kein Ersatz, sondern Hilfsmittel fiir die Theorienbildung. Wenn 
viele GroBen zueinander in Beziehung stehen, konnen Simulationsmodelle die 
Komplexitat haufiger als mathematische Modelle angemessen berucksichtigen; 
dadurch wird eine ganzheitliche Betrachtung wiederbelebt. Andererseits kann 
man aus einem mathematischen Modell exakte Prognosen fiir die Population 
der Menschen herleiten, die gemaB den Modellannahmen „funktionieren“. 
Dagegen sind Prognosen eines Simulationsmodells eine Stichprobe, die in un- 
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bekanntem AusmaB verzerrt ist: ,,Wenn die Daten deutlieh voneinander ab- 
weichen, bietet sich . . . die zusatzliche Moglichkeit, dies unter Hinweis auf 
den Stichprobencharakter der Prognosen zu entkraften“ (Deppe, 1977, 144). 
Mit anderen Worten: Mathematische Modelle sind strenger prufbar als Simula- 
tionsmodelle, und dieser Gesichtspunkt, im Rahmen der Falsifikationstheorie 
betrachtet, ist sehr wichtig (vgl. dazu Hager und Westermann in diesem 
Band). Andererseits setzt dieses Kriterium voraus, daB die mathematische 
Modellbildung mit der Simulation verglichen werden kann, und wegen der 
besseren Handhabbarkeit komplexer Beziehungen durch Simulationsmodelle 
ist dieser Vergleich nicht immer moglich. 
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2. Kapitel 



Planung und Auswertung 
von Experimenten*) 

Willi Hager und Rainer Westermann 
Vorbemerkungen 

Ein wesentliches Ziel jeder empirischen Wissenschaft besteht darin, zu fun- 
dierten Kausalaussagen zu gelangen, also zu Aussagen liber die Ursachen oder 
Bedingungen der jeweils interessierenden beobachtbaren Sachverhalte. Die be- 
vorzugte Methode zur Uberpriifung entsprechender Vermutungen oder Kau- 
salhypothesen ist das Experiment, auch in der Psychologie und in benachbar- 
ten Sozial- und Verhaltenswissenschaften (Abschn. 1.2). Das AusniaB, in dem 
ein bestimmtes Experiment zur Priifung einer solchen Kausalhypothese geeig- 
net ist, werden wir als dessen Validitat bezeichnen (Abschn. 1.3). 

Soil ini Experiment eine Kausalhypothese gepriift werden, miissen die in ihr 
vorkommenden (theoretischen) Begriffe in beobachtbare Variablen ,,iiber- 
setzt“ werden. Fehler bei dieser ,,Operationalisierung“ beeintrachtigen die 
,,Variablenvaliditat“ der Untersuchung (Teil 2). Ob mit Hilfe eines Experi- 
ments iiberhaupt Aussagen iiber Ursachen mdglich sind, hangt von seiner 
,, internet! Validitdt “ ab (Teil 3). Inwieweit ein Experiment eine Priifung fiir die 
betrachtete Kausalhypothese ist, wird auch dadurch beeinfluBt, mit welchen 
Personen und in welcher Situation es durchgefiihrt wird. Diese in ihrer Bedeu- 
tung fiir die wissenschaftliche Theorienbildung haufig unterschatzte ,, Popula- 
tions- und Situationsvaliditdt “ wird im Teil 4 besprochen. Die bisher erwahn- 
ten Aspekte der experimentellen Validitat konnen sich in verschiedener Weise 
gegenseitig beeinflussen, und zwar je nach Art der gepriiften Hypothese for- 
dernd oder hemmend (Teil 5). Im Teil 6 zeigen wir, daB liber die Giiltigkeit 
einer wissenschaftlichen Hypothese entschieden werden kann. indem iiber die 



*) Wir danken den Kollegen Marcus Hasselhorn (Heidelberg), Falk Leichsenring 
(Gottingen) und Werner Wippich (Trier) fiir ihre kritischen Anmerkungen zu einigen 
frtiheren Fassungen dieser Arbeit und Frau Gabriele Reimann fiir das Anfertigen der 
Zeichnungen. 
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Gultigkeit von aus ihr abgeleiteten statistischen Hypothesen entschieden wird. 
Diese Entscheidung erfolgt mit Hilfe von Signifikanztests (Teil 7). Die wich- 
tigsten Fehler, die dabei gemacht werden konnen und die dann die ,,statistische 
V aliditat" des Experiments herabsetzen, besprechen wir im Teil 8. Dabei wer- 
den sich wesentliche Hinweise fur die Auswahl derjenigen Versuchsplane und 
Auswertungsmethoden ergeben, die fur ein bestimmtes Experiment wahr- 
scheinlich am besten geeignet sind. Auf zwei Aspekte der statistischen Validi- 
tat gehen wir in den Teilen 9 und 10 besonders ein: auf MaBe fur die GroBe des 
„experimentellen Effekts" und auf die begrundete Wahl des Stichprobenum- 
fangs. Eine auf diesen Uberlegungen basierende Planungs- und Entschei- 
dungsstrategie stellen wir im Teil 11 dar. 

Obwohl wir detailliert auf bestimmte Fragen und Probleme der statistischen 
Auswertung eingehen mussen, setzen wir die Kenntnis der gebrauchlichen 
Testverfahren voraus bzw. geben lediglich an, wo man sie sich verschaffen 
kann. 

Im Laufe unserer Erorterungen werden wir immer wieder auf die verbreiteten 
sog. „Standard-Versuchsplane" stoBen. Einige ihrer Vor- und Nachteile wer- 
den wir jeweils kurz vor dem Hintergrund der verschiedenen Aspekte der 
experimentellen Validitat - dem zentralen Anliegen unseres Artikels - dis- 
kutieren; daruber hinausgehende Hinweise zur Anwendung und Auswertung 
dieser Plane konnen dann jeweils den detai I Merten Literaturangaben entnom- 
men werden. Uberhaupt sollen die zahlreichen Verweise den Leser anregen, 
sich mit einigen Originalarbeiten zu ihn interessierenden Problemen zu be- 
schaftigen. Er wird dann feststellen, daB viele der hier angesprochenen Proble- 
me noch kontrovers diskutiert werden, so daB man in zahlreichen Einzelfallen 
sicher auch andere Meinungen und Empfehlungen vertreten kann als die bei- 
den Autoren dieser Arbeit. Insbesondere kann man zu anderen Ergebnissen 
kommen, wenn man einen anderen wissenschaftstheoretischen Ausgangs- 
punkt wahlt. 

Insgesamt kommt es uns vornehmlich darauf an, dem „Produzenten" experi- 
menteller Ergebnisse konkrete Hinweise zu vermitteln, wie er sein Experiment 
so planen, durchfuhren und auswerten kann, daB die Resultate zur Entschei- 
dung uber die Gultigkeit seiner wissenschaftlichen Hypothese beitragen 
konnen. 

Der „Konsument" experimenteller Befunde soil angeregt werden, sich kritisch 
mit Ansatz, Durchfuhrung und Auswertung ihn interessierender Untersu- 
chungen zu befassen. 
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1. Einleitung 

11 Einige Begriffsbestimmungen 

FaBt man die wesentlichen Gemeinsamkeiten der zahlreichen Definitionen des 
Experiments (siehe z.B. Bredenkamp, 1969a; Zimmermann, 1972; Fietkau, 
1973) zusammen, gelangt man etwa zu folgenden Kennzeichen: 

(1) Im Experiment werden bestimmte Bedingungen will kurl i ch (absichtlich) 
hergestellt. 

(2) Die hergestellten Bedingungen werden in bestimmter Weise (systematisch) 
variiert. 

(3) Durch den Vergleich verschiedener Beobachtungen wird der EinfluB dieser 
Variation auf bestimmte andere Merkmale festgestellt. 

(4) Alle anderen Bedingungen versucht man konstant zu halten Oder zu kon- 
trollieren. 

Die vom Experimentator (abgekurzt: E) variierten Bedingungen bezeichnet 
man als die unabhangigen Variablen (UVn) Oder Faktoren des Experiments. 
Im einfachsten Fall liegt eine unabhangige Variable (UV) mit zwei Auspragun- 
gen vor. Diese Auspragungen werden auch Modalitaten, Stufen Oder (Behand- 
lungs- bzw. Treatment-) Bedingungen genannt, oft auch nur kurz Treatments. 
Als Beispiel denke man an die UV „Art der Verstarkung" (symbolisiert als A) 
mit den Modalitaten „Belohnung" (abgekurzt als und „Bestrafung" (A 2 ); 
allgemein bezeichnen wir die Modalitaten mit Aj, wobei gilt: j = 1, 2, .... I, I', 

>J. 

In der Psychologie sind die Modalitaten der UV i.a. wie im angefuhrten 
Beispiel qualitativ gestuft; nur in Ausnahmefallen besteht die Moglichkeit, eine 
UV mit quantitativen Abstufungen einzufuhren (als Beispiel denke man an die 
Darbietungszeiten in einem Lernexperiment). 

Werden unabhangig voneinander mehrere Merkmale variiert, spricht man von 
einem „mehrfaktoriellen (oder multidimensionalen) Experiment". Als Beispiel 
fur eine zweite UV sei die „Flaufigkeit der Verstarkung" (symbolisiert als B) 
genannt, und zwar mit den Auspragungen „Nach jeder Reaktion" (B,) und 
„Nach jeder 3. Reaktion" (Ba). Allgemein benennen wir die Modalitaten des 
Faktors B mit B k , wobei gilt: k = 1, 2, . . ., m, m', . . ., K. In mehrfaktoriellen 
Experimenten wird i.a. jede Bedingung jeder UV mit jeder Bedingung jeder 
anderen UV kombiniert („gekreuzt"); vgl. jedoch Abschnitt 8.3.5. 

Die Sachverhalte, die als Auswirkungen der vorgenommenen Bedingungsva- 
riation betrachtet werden, stellen die abhangigen Variablen (AVn) des Experi- 
ments dar, z.B. die „Anzahl der verbalen Aggressionen gegen den Versuchs- 
leiter" (Y u ) Oder die „Anzahl der Durchgange bis zum Erreichen des Lernkri- 
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teriums" (Y v ). Untersuchungen, in denen die Werte auf nur einer AV erhoben 
werden, heiBen univariat, solche mit mehreren multivariat. 

Diese Begriffsbestimmungen sind nur als erste Orientierung gedacht, Prazisie- 
rungen ergeben sich aus dem weiteren Inhalt dieser Arbeit. Insbesondere wer- 
den wir im Abschnitt 3.6 zu einer genaueren Definition des Experiments 
gelangen, die auch eine Abgrenzung gegenuber anderen Forschungsmethoden 
erlaubt. 



1.2 Das Experiment als Methodezur Prufung 
von Kau sal au ssagen 

Um beschreiben zu konnen, wann Planung und Auswertung eines Experi- 
ments adaquat sind und welche Fehler dabei gemacht werden konnen, wollen 
wir von Ziel und Zweck des Experiments ausgehen: In der Fachliteratur wird 
das Experiment als die einzige Methode bezeichnet, die generell zur uberpru- 
furig von Kausalhypothesen geeignet ist (Siebel, 1965; Aronson & Carlsmith, 
1968; Miller, 1970; Gadenne, 1976; Cook & Campbell, 1979). Kausalhypo- 
thesen und alle anderen Arten von Vermutungen, vorlaufigen Problemlosun- 
gen, theoretischen Ableitungen, Vorhersagen usw., die empirischen Untersu- 
chungen vorgeordnet sind, werden wir zusammenfassend „wissenschaftliche 
Hypothesen" (WH) nennen. Zur Verdeutlichung wollen wir von einer fiktiven 
Problemstellung ausgehen, die uns als Beispiel auch bei unseren weiteren Er- 
orterungen zuweilen begegnen wird: 

Da man befurchtet, daB durch die mangelnde Integration von Auslandern (Gastarbei- 
tern) schwere soziale Konflikte auftreten, sei die politische Entscheidung gefallen, die 
Benachteiligung von Auslandern zu beenden und ihre Eingliederung in die Gesellschaft 
zu fordern. Da dieser BeschluB nicht einhellig von der Bevolkerung unterstutzt wird, 
soil als einer der ersten Schritte ein Programm zur Veranderung der negativen Einstel- 
lung gegenuber Auslandern durchgefuhrt werden. 

Wir wollen uns vorstellen, ein Team von Psychologen und Sozialwissenschaftlern habe 
den Auftrag bekommen, dieses Programm zu planen, durchzufuhren und seine Wirk- 
samkeit zu uberprufen. 

In der Fachliteratur ist eine groBe Zahl von theoretischen Vorstellungen daruber zu 
finden, durch welche MaBnahmen Einstellungen verandert werden konnen. Eine der 
bekanntesten Theorien in diesem Zusammenhang ist die kognitive Dissonanztheorie 
von Festinger (1978; vgl. Irle, 1975; Frey, 1978). 

Aus der Theorie der kognitiven Dissonanz laBt sich unter anderem die folgen- 
de Hypothese ableiten: ,,Wenn zwischen der Einstellung einer Person zu 
einem bestimmten Objekt und einem anderen kognitiven Element eine Disso- 
nanz besteht, dann verandert sich die Einstellung so, daB diese Dissonanz 
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vermindert wird." Hier wird die Erzeugung von Dissonanz (D) als hinreichen- 
de Bedingung fur die Anderung der Einstellung bezeichnet. Wir wollen diese 
spezielle wissenschaftliche Hypothese als WH, bezeichnen und durch „D |— > 
dE" symbol i si eren. Dabei soil dE eine Veranderung der betrachteten Einstel- 
lung bezeichnen. Falls die Hypothese gultig ist, falls sie also eine psychologi- 
sche GesetzmaBigkeit ausdruckt, gilt folgendes: Treten die Ereignisse „D" und 
„dE" ein, kann „D" als die Ursache von „dE" bezeichnet werden (Gadenne, 
1976, 29). Von daher konnen wir unsere obige Vermutung als Kausal hypothese 
bezeichnen.') 

Trotz einer oberflachlichen Ahnlichkeit ware es inadaquat, wissenschaftliche 
Kausal hypothesen mit der materiellen Implikation („P— >Q“) der Logik gleich- 
zusetzen. Man wurde dann zu dem paradoxen Ergebnis kommen, daG eine 
Kausal hypothese notwendigerweise wahr sein muB, wenn die Pramisse (P) 
ganz sicher falsch ist und/ Oder wenn die Konklusion (Q) ganz sicher wahr ist. 
Etwas konkreter ausgedruckt hatte das u.a. zur Folge, daft man bei Nichtvor- 
liegen von P keine Erwartungen hinsichtlich des Eintretens Oder N icht-Eintre- 
tens von Q ableiten kann. Dagegen ist in wissenschaftlichen Kausal hypothesen 
(implizit) meist auch die Aussage enthalten, daG die Folge Q nicht eintritt, 
wenn P nicht gegeben ist und wenn alle anderen Bedingungen gleichbleiben. 
Deshalb umfaBt die Prufung von Kausal hypothesen immer den Vergleich von 
Beobachtungen unter mindestens zwei Bedingungen, die sich moglichst nur 
dahingehend unterscheiden, daG in einer P gegeben ist, in der anderen jedoch 
nicht. Wie dieses Ziel zu erreichen ist, wird das Hauptthema der folgenden 
Teile (insbesondere Teil 3) sein. (Naheres zum Begriff der Kausalitat findet 
man u.a. bei Suppes, 1970; Brand, 1976; Cook & Campbell, 1979.) 

Um M iBverstandnisse zu vermeiden, sei betont: Eine solche Kausalhypothese 
bedeutet weder, daG - um im Beispiel zu bleiben - „Einstellungsanderung" 
die einzige Folge des „Auftretens von Dissonanz" sein muB, noch daG „Ein- 
stellungsanderungen" ausschlieBlich durch Dissonanz hervorgerufen werden 
konnen. Aus dem meist hochkomplexen empirischen Zusammenhangsgefuge 
isoliert eine Kausalhypothese also in der Regel nur einen Teilaspekt. 

Wir wollen uns in dieser Arbeit mit der Frage beschaftigen, wie man zu 
empirisch fundierten Aussagen uber die „Wahrheit" Oder „Falschheit" derarti- 
ger psychologischer Kausal hypothesen gelangen kann. Zuvor soil aber nicht 
versaumt werden, darauf hinzuweisen, daG Kausalaussagen der Form 



1 ) Wir mussen uns in dieser Arbeit auf vereinfachende Andeutungen zur Struktur von 
Theorien und zur Ableitung von Hypothesen beschranken und verweisen im einzelnen 
auf Bunge (1967a, b), Stegmuller (1973c, 1974b, 1978, 1979a, b, 1980), Groeben & 
Westmeyer (1975), Suppe (1977a, b), Henning & Muthig (1979, 13-18) sowie ferner 
Abschnitt 2.1. Zu den Anforderungen, die eine Aussage erfullen muB, um als wissen- 
schaftliche Hypothese gelten zu konnen, siehe Bunge (1967a, 229, 280-290). 
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„Wenn . . dann ..." nicht die einzige Art von Hypothesen sind, die in der 
Psychologie interessieren. Betrachten wir als Beispiel die beruchtigte Aussage 
„WeiBe sind (im Durchschnitt) intelligenter als Neger". Hier wird etwas aus- 
gesagt uber die Unterschiede zwischen statistischen Parametern (M ittelwerten) 
zweier Populationen hinsichtlich einer bestimmten Variablen. Allgemein aus- 
gedruckt sind solche Hypothesen Aussagen uber den statistischen Zusammen- 
hang mindestens zweier Variablen. Auf die Frage der Verursachung gehen sie 
nicht ein. Zur Unterscheidung von den Kausal hypothesen werden sie als stati- 
stische P opu I ati onshy pothesen bezeichnet (Bredenkamp, 1979; Hager & West- 
ermann, im Druck, a). Mit ihnen und anderen moglichen Arten von Hypothe- 
sen (s. Bunge, 1967a) werden wir uns gemaB unserer Hauptfragestellung nur 
am Rande beschaftigen. 

Es gibt aber eine groBe Zahl moglicher Storfaktoren, die dazu fuhren konnen,. 
daB eine konkrete Untersuchung Oder eine bestimmte Art von Untersuchun- 
gen nicht als bestmogliche Prufung einer kausalen psychologischen Hypothese 
bezeichnet werden kann. Liegen in einem bestimmten Experiment derartige 
Storfaktoren vor, wollen wir davon sprechen, dal$ die V al i di tat dieses Experi- 
ments zur Prufung der interessierenden Kausalhypothese herabgesetzt ist. 
Hieraus ergibt sich die Forderung, daB Experimente grundsatzlich so zu pla- 
nen, durchzufuhren und auszuwerten sind, daB ihre Validitat moglichst hoch 
ist. Dieser Artikel befaBt sich mit den wesentlichsten Aspekten, die zu beach- 
ten sind, will man dieser Forderung annahernd nachkommen. 



1.3 Die Validitat eines Experiments 

Wir werden im folgenden die angesprochenen Storfaktoren in vier Gruppen 
einteilen und dementsprechend vier Aspekte der experimentellen Validitat be- 
handeln: 

(1) Variablenvaliditat (Teil 2) 

(2) interne Validitat (Teil 3) 

(3) Situations- und Populationsvaliditat (Teil 4) 

(4) statistische Validitat (Teil 6) 

Diese Einteilung entspricht der von Cook & Campbell (1976, 1979), die ihrer- 
seits eine Erweiterung der Unterscheidung zwischen interner und externer 
Validitat nach Campbell (1957, 1969) und Campbell & Stanley (1963) ist. Die 
folgenden Ausfuhrungen weichen allerdings insofern grundsatzlich von diesen 
Ansatzen ab, als in ihnen ein Einwand berucksichtigt wird, den Gadenne 
(1976) gegenuber Campbell & Stanley (1963) geltend macht und der im we- 
sentlichen auch auf die neueren Arbeiten von Cook & Campbell zutrifft: 
Gadenne (1976) weist nach, daB das Konzept der internen und der externen 
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Validitat einen i nduktivistischen Ansatz darstellt, d.h. Schlusse vom Besonde- 
ren auf das Allgemeine enthalt. Da die logische Rechtfertigung induktiver 
Schlusse (immer) noch aussteht, empfiehlt Gadenne (1976), das Problem der 
moglichen Storfaktoren im Experiment im Rahmen der Falsifikationstheorie 
Poppers (1976) zu behandeln, nach der zur Uberprufung von Hypothesen und 
Theorien ausschlieGlich deduktive Schlusse anzuwenden sind. 

Ohne an dieser Stelle detailliert auf wissenschaftstheoretische Probleme einge- 
hen zu konnen, wollen wir im AnschluG an Gadenne (1976) in vereinfachter 
Weise schildern, welche Konsequenzen die Falsifikationstheorie fur die Uber- 
prufung von Kausal hypothesen wie etwa unserer WFI, hat (vgl. Bredenkamp, 
1980 ). 

Das Ziel jeder empirischen Wissenschaft kann man in der Aufstellung von 
wahren Aussagen (Theorien, Hypothesen) mit moglichst hohem Informa- 
tionsgehalt uber die Realitat sehen. Nach Popper (1976, 1979) kann dieses Ziel 
nur erreicht werden, indem man - erstens - nach Fakten sucht, die der 
betrachteten Theorie Oder Hypothese widersprechen und - zweitens - „bes- 
sere" Theorien aufzustellen versucht, die mit mehr empirischen Daten in Ein- 
klang stehen. Die als erstes angesprochene Uberprufung einer Theorie bzw. 
Hypothese erfolgt dadurch, daB man aus ihr Vorhersagen uber empirisch 
beobachtbare Ereignisse ableitet. Diese Vorhersagen haben die Form „Wenn 
die Bedingung b (die sog. „Anfangsbedingung") gegeben ist, dann tritt Ereig- 
nis e ein". In einer experimentellen Untersuchung bezieht sich die Anfangsbe- 
dingung auf die Modalitaten der UV X, und das Ereignis e entspricht meist 
bestimmten Unterschieden dY auf der abhangigen Variablen. Beobachtet man 
nun X, ohne daB dY eintritt, ist man berechtigt, die Hypothese als „falsifi- 
ziert" anzusehen, allerdings nur wenn der entsprechende Basissatz „Xa~ idY“ 
(„X hat vorgelegen, aber keine Veranderung auf Y ist eingetreten") als repro- 
duzierbare Tatsache akzeptiert werden kann. Praktisch bedeutet dies, daB man 
sich zur Falsifikation einer Hypothese nie al lei n aufgrund eines einzigen empi- 
rischen Ergebnisses entschlieGt und daB zur Prufung einer Hypothese stets 
mehrere empirische Beobachtungen (konkreter: mehrere Experimente) not- 
wendig sind. Glass (1976, 1978) und Pillemer & Light (1980) geben einen 
Uberblick uber Moglichkeiten, die Ergebnisse verschiedener Untersuchungen 
systematised zusammenzufassen (s.a. Fricke, 1977; Rosenthal & Rubin, 1979; 
Vatza et al., 1980; Rosenthal, 1980; Cooper & Rosenthal, 1980; Bredenkamp, 
1980; 35-37 und Abschn. 11.2). Zur Falsifikation wird man sich insbesondere 
dann entschlieGen, wenn eine neue Theorie aufgestellt werden kann, die auch 
die der alten Theorie widersprechenden Ergebnisse mit einbeziehen kann (vgl. 
die Beschreibung wissenschaftlicher Forschungsprogramme als Theorienket- 
ten von Lakatos (1974)). Dadurch ergibt sich ein Erkenntnisfortschritt. Solan- 
ge man sich nicht fur die Falsifikation einer Hypothese entschieden hat, gilt sie 
als ,,vorl auf i g bewahrt". 
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Nun sol Ite man von einer Bewahrung der Hypothese aufgrund vorliegender 
Daten nur sprechen, wenn man tatsachlich versucht hat, die Hypothese auf 
eine „ernstzunehmende" Weise zu widedegen. „Ernstzunehmen" ist ein Falsi- 
fikationsversuch, wenn er so angelegt wird, daB im Falle der Falschheit der 
Hypothese auch Daten zu erwarten sind, die ihr widersprechen. Es sollen also 
u n gerechtferti gte Bewahrungen der Hypothese vermieden werden. Ist diese 
Forderung erfu lit, spricht Popper (1976) von einem „strengen" Prufversuch. 
Allerdings besteht nach dieser Definition die Moglichkeit, eine strenge Pru- 
fung dadurch zu erreichen, daB man die Untersuchung so plant, daB aus- 
schlieBlich hypothesenkontrare Ergebnisse eintreten konnen. Dies ware aber 
offensichtlich ein ungeeigneter Weg, Erkenntnisse uber die Realitat zu gewin- 
nen. Deshalb soil der Verweis auf das Kriterium eines strengen Prufversuchs 
immer auch folgendes bedeuten: Wenn statt der zu priifenden Kausal hypothe- 
se WH ihr logisches Gegenteil falsch ist, soil die Wahrscheinlichkeit eines der 
WH widersprechenden empirischen Ergebnisses gering sein. Eine strenge Pru- 
fung soil u.E. also sowohl falschliche Bewahrungen der WH als auch falsch- 
liche Falsifikationen vermeiden. 

Da diese Forderung nach strengen Prufungen von Hypothesen und Theorien 
grundlegend ist fur die weiteren Erorterungen in dieser Arbeit, wollen wir 
jetzt genauer uberlegen, unter welchen Umstanden eine Untersuchung zur 
Prufung einer Hypothese als mehr Oder weniger streng bezeichnet werden 
kann. Wir erinnern uns: Aus den (u.U. relativ komplexen) Anfangsbedingun- 
gen X wird mit Hilfe der zu uberprufenden WH das Ereignis dY prognosti- 
ziert. Nehmen wir nun an, es gabe eine andere gut bewahrte Hypothese HS, 
die aus den vorliegenden Anfangsbedingungen X (oder Teilaspekten davon) 
das gleiche Ereignis dY prognostiziert. Eine solche Hypothese soil als Sto- 
rungshypothese bezeichnet werden. Auch wenn die WH falsch sein sollte, 
ware wegen HS in diesem Fall nicht das der WH widersprechende Ereignis 
mdY zu erwarten. Deshalb kann eine Untersuchung nicht als strenger Prufver- 
such bezeichnet werden, wenn in ihr die Anfangsbedingungen einer bewahrten 
Storungshypothese vorliegen. Man kann demnach allgemein formulieren: 

Die Prufung einer wissenschaftlichen H ypothese durch ein Experiment ist 
streng, wenn das aus dieser FI ypothese vorbergesagte Ereignis nicht auch mit 
H i I fe anderer Theorien Oder H ypothesen (sog. Storungshypothesen) aus Bedin- 
gungen, die im Falle dieses Experiments vorliegen, abgeleitet werden kann. 

Diejenigen Merkmale des Experiments, aus denen mit Hilfe einer Storungshy- 
pothese die gleiche Prognose abgeleitet werden kann wie aus der zu prufenden 
wissenschaftlichen Hypothese, werden als Storfaktoren Oder Storbedingungen 
der experimentellen Validitat bezeichnet. Liegt in einer Untersuchung eine 
potenti el I e Storbedi ngung nicht vor, beiBt diese Bedingung kontrolliert. 

Eine Prazisierung des Begriffs der Strenge einer Prufung, die es erlauben 
wurde, jeder Untersuchung einen Zahlenwert zuzuordnen, der ein MaB dafur 
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ist, wie streng diese Untersuchung als Prufung einer bestimmten Hypothese 
ist, liegt noch nicht vor. Wir konnen vielmehr nur folgendes sagen: 

Die Prufung einer wissenschaftlichen Hypothese durch eine Untersuchung U, 
ist strenger als durch eine Untersuchung U 2 , wenn alle potentiellen Storfakto- 
ren, die in U, kontrolliert sind, auch in U 2 kontrolliert sind, und wenn in Uj 
zusatzlich mindestens ein weiterer Storfaktor kontrolliert ist (Gadenne, 1976, 
64). 

uber den Begriff der Strenge eines Prufversuchs wollen wir jetzt den Begriff 
der Validitat eines Experiments (bzw. allgemeiner einer Untersuchung) defi- 
nieren (vgl. Hager & Westermann, im Druck, a): 

Die Validitat einer Untersuchung zur Uberprufung einer wissenschaftlichen 
Hypothese ist um so grower, je grower die Wahrscheinlichkeit ist, dal$ die Unter- 
suchung Daten erbringt, die der Hypothese widersprechen, falls diese tatsach- 
lich falsch ist, bzw. je grower die Wahrscheinlichkeit ist, dal5 die Untersuchung 
Daten erbringt, die der Hypothese nicht widersprechen, falls das logische Ge- 
genteil dieser H ypothese falsch ist. 

Wir werden in den folgenden Abschnitten ausfuhrlich besprechen, welche 
konkreten MaBnahmen ein Experi mentator zu treffen hat, um die so definierte 
Validitat seines Experiments moglichst groB werden zu lassen (vgl. dazu auch 
die nicht vorwiegend statistisch orientierten Ausfuhrungen zur Planung des 
Experiments von Campbell & Stanley, 1963; Cochran, 1968a; Bredenkamp, 
1969a, 1980, 1-40; Armitage & Remington, 1970; Stanley, 1973; Cook & 
Campbell, 1979; Henning & Muthig, 1979). Ganz allgemein laufen diese MaB- 
nahmen darauf hinaus, moglichst viele der potentiellen Storungshypothesen 
auszuschlieBen, indem man die Untersuchung so plant, durchfuhrt und gestal- 
tet, daB die fur die Anwendung dieser Storungshypothesen notwendigen An- 
fangsbedingungen nicht gegeben sind, daB also die entsprechenden Storfakto- 
ren kontrolliert sind. Die dabei im folgenden zu besprechende Einteilung der 
potentiellen Storfaktoren in verschiedene Gruppen ist - das sei ausdrucklich 
betont-weder die einzig mogliche noch ist unser „Katalog" von Storfaktoren 
abgeschlossen und umfassend.') 



2 ) Unberucksichtigt bleiben bei der folgenden Diskussion triviale Storungen der expe- 
rimentellen Validitat durch falsches Verhalten des Versuchsleiters, falsches Aufzeich- 
nen der Antworten, Fehler bei der Berechnung, bewuBte Falschung der Daten usw. 
(siehe Mosteller, 1968; Barber, 1976 ). 
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2. V ariabl en val i ditat (VV) 

In unserer exemplarischen Hypothese WH, wird eine Aussage uber die Bezie- 
hung zwischen zwei Begriffen gemacht: „Dissonanz" und „Einstellung". Bei- 
de Begriffe sind keine empirischen Begriffe, sondern gehoren zur theoreti- 
schen Sprache. In diesem Abschnitt wollen wir zunachst erlautern, was diese 
Einordnung bedeutet, und dann uberlegen, welche Konsequenzen sie fur die 
Val iditat von Experimenten zur Uberprufung von Kausalhypothesen hat. 

Nach Carnap (1960) kann man die wissenschaftliche Sprache in zwei Stufen 
einteilen, indem man zwischen einer Beobachtungssprache und einer theoreti- 
schen Sprache unterscheidet (zur Kritik dieses Ansatzes siehe Suppe, 1977a). 
Die Beobachtungssprache umfaBt dabei ausschlieBlich Begriffe, die sich auf 
beobachtbare Objekte, Eigenschaften und Relationen beziehen sowie solche 
Begriffe, die sich durch explizite Definitionen vollstandig auf diese zuruckfuh- 
ren lassen (Stegmuller, 1974b). Wir wollen das Vokabular der Beobachtungs- 
sprache kurz als Beobachtungsbegriffe bezeichnen. Alle Begriffe, die nicht zur 
Beobachtungssprache gehoren, sind theoreti sche Begriffe. Diese theoretischen 
Begriffe sind also nicht vollstandig auf Beobachtbares zuruckzufuhren, sie sind 
nach M acCorquodale & Meehl (1948) hy potheti sche Konstrukte mit einer 
U berschuGbedeutung. 

Dieses Konzept ist insofern eine Idealisierung, als man inzwischen klar erkannt hat, 
daB keine Beobachtung voraussetzungs-, d.h. theoriefrei ist (Herrman, 1973; Lakatos, 
1974; Suppe, 1977a, b). Deshalb spricht Hempel (1974) statt von einer Beobachtungs- 
sprache von einem „vorgangig verfugbaren Vokabular". 

Von besonderer Bedeutung ist nun der Umstand, daB ohne theoretische Be- 
griffe keine Kausalaussagen moglich sind. 

Zu Beginn des Abschnittes 1.2 hatten wir bereits erwahnt, daB ein Ereignis 
(z.B. D) dann als Ursache eines anderen Ereignisses (z.B. dE) bezeichnet 
werden kann, wenn beide zusammen auftreten und wenn es eine allgemeine 
GesetzmuBigkeit gibt, wonach D (regelmaBig) dE zur Folge hat (Gadenne, 
1976). Eine Aussage wie„Df->dE“ kann aber nur dann als allgemeines Gesetz 
bezeichnet werden, wenn es uber einen bestimmten raumzeitlichen Zusam- 
menhang hinaus gilt. Damit konnen die in der Aussage enthaltenen Begriffe 
aber nicht mehr ganz bestimmten beobachtbaren Sachverhalten entsprechen, 
sondern sie beziehen sich auf unbegrenzte Mengen von moglichen „Realisie- 
rungen", die sich zumindest dadurch unterscheiden, daB sie zu unterschied li- 
chen Zeiten und an unterschied lichen Orten auftreten. Die in Kausalaussagen 
auftretenden Begriffe mussen also notwendigerweise theoretische Begriffe 
sein. Zur Prufung einer psychologischen Kausal hypothese mussen von daher 
stets den in ihr enthaltenen theoretischen Begriffen beobachtbare Variablen 
zugeordnet werden. Aussagen, die einem theoretischen Begriff einen empiri- 
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schen Begriff zuordnen, bezeichnet man als Zuordnungsregeln (Stegmuller, 
1974b, 308-319). 

Welche Anforderungen sind nun an diese Zuordnungsregeln zu stellen, wenn 
wir vom Ziel einer strengen Prufung der Hypothese ausgehen? Oder anders 
ausgedruckt: Durch welche Mangel bei der Zuordnung von empirischen und 
theoretischen Begriffen kann die Validitat einer Untersuchung als Prufung 
einer Kausal hypothese eingeschrankt werden? 

Wir wollen die wichtigsten dieser Mangel zu funf Storfaktoren zusammenfas- 
sen. Da sie die Beziehung zwischen empirischen und theoretischen Variablen 
betreffen, wollen wir diesen Teilaspekt der Validitat einer Untersuchung als 
„Variablenvaliditat" (W) bezeichnen und entsprechend von „Storfaktoren 
(VV)" sprechen, um sie von den spater noch zu besprechenden anderen Arten 
von Storfaktoren zu unterscheiden. 



2.1 Mangelnde Eindeutigkeit der Zuordnung als Storfaktor (VV) 

Aus einer Kausal hypothese wie WH U ist eine empirisch prufbare Prognose der 
oben beschriebenen Form XAdY nur ableitbar, wenn man den theoretischen 
Begriffen der Hypothese ganz bestimmte empirisch beobachtbare Variablen 
(empirische Realisierungen Oder 0 perat i on al i si eru n gen ) zuordnet. Danach 
muB fur jede empirische Variable eindeutig entscheidbar sein, ob sie einem 
bestimmten theoretischen Begriff zugeordnet ist Oder nicht. Liegt diese ein- 
deutige Zuordnung nicht vor, ist es also z.B. unsicher, ob durch bestimmte 
MaBnahmen X „Dissonanz" erzeugt wird und/ Oder ob das Ergebnis Y eines 
gegebenen Tests eine Entsprechung des theoretischen Begriffs „Einstellung" 
darstellt, kann ein auf den ersten Blick hypothesenkontrares Untersuchungser- 
gebnis XAmdY darauf zuruckgefuhrt werden, daB Y eine inadequate Opera- 
tional i si eru ng fur die „Einstellung" ist und/ Oder daB in X gar keine Entspre- 
chung der Dissonanzbedingung D vorgelegen hat. Da in diesem Falle keine der 
Hypothese widersprechenden empirischen Ergebnisse auftreten konnen, kann 
von einer echten Prufung der Hypothese gar keine Rede sein. 

Die „Erklarung" (erwartungswidriger) empirischer Ergebnisse durch Verwei- 
sen auf inadequate Operationalisierungen findet man sehr haufig in den mit 
„Diskussion" uberschriebenen Teilen von Forschungsberichten. Entsprechen- 
de Argumentationen stellen nicht unbedingt eine besonders lobenswerte „kri- 
tische Wurdigung" der eigenen Forschungsbefunde dar, sondern weisen (fast) 
stets auf (haufig gravierende) Fehler in der Konzeption der Untersuchung hin. 

Wie kann man diesen Fehler vermeiden, d.h. wie kommt man zu einer eindeu- 
tigen Zuordnung von empirischen zu theoretischen Variablen? Um es gleich 
vorwegzunehmen: Einen routinemaBig beschreitbaren Weg zu diesem Ziel 
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gibt es nicht. Wir konnen deshalb nur exemplarische Uberlegungen skizzieren, 
die dem Leser als Anregungen fur eigene Problemlosungen dienen mogen. 

Betrachten wir eine Hypothese wie WH„ isoliert, ist eine Zuordnung empiri- 
scher Variablen zu den theoretischen Begriffen recht will kurl i ch moglich, 
wenn wir einmal davon absehen, daB sie nicht unserem Vorverstandnis uber 
die verwendeten theoretischen Begriffe widersprechen sollte. Um diese Belie- 
bigkeit einschranken zu konnen, benotigen wir eine Theorie, d.h. eine Menge 
von Satzen, die die in unserer Hypothese auftretenden Begriffe dadurch naher 
spezifiziert, daB sie sie mit anderen theoretischen Begriffen in Beziehung setzt. 
Sollte durch diese Explikation noch keine eindeutige Ableitung von Operatio- 
nalisierungen moglich sein, muB man ein Vorgehen wahlen, das Ahnlichkeit 
hat mit der K onstru ktval i dieru ng psychologischer Tests (Cronbach & Meehl, 
1955 ; Campbell & Fiske, 1959 ): 

Durch eine Menge theoretischer Satze entsteht - um ein Bild Hempels ( 1974 ) 
zu benutzen - ein Netz theoretischer Begriffe, zu dem ein „passendes" Netz 
empirischer Begriffe gefunden werden muB. Man ordnet empirische und theo- 
retische Begriffe bei einer solchen Betrachtungsweise also nicht einzeln einan- 
der zu, sondern versucht, fur eine Menge theoretischer Begriffe empirische 
Entsprech ungen so zu finden, daB die nach der Theorie bestehenden Verbin- 
dungen zwischen den theoretischen Begriffen sich in den statistischen Assozia- 
tionen zwischen den entsprechenden empirischen Variablen wiederfinden. 
Durch einen Rekurs auf einen groBeren theoretischen Zusammenhang kann 
also die Eindeutigkeit in der Zuordnung von empirischen zu theoretischen 
Begriffen erhoht werden. Allerdings sind sehr viele psychologische Theorien 
noch zu unprazise formuliert, als daB man die jeweilige Menge der moglichen 
Operational isierungen fur ihre Begriffe tatsachlich genau spezifizieren kann. 
Damit sind solche Theorien und die aus ihr abgeleiteten Hypothesen aber nur 
in begrenztem MaBe einer strengen Prufung zuganglich. 



2.2 Mangel ndekonzeptuelle Replikation alsStorfaktor (VV) 

Nach der hier zugrunde gelegten Zweisprachenkonzeption von Carnap (i960) 
haben theoretische Begriffe gegenuber der Beobachtungssprache eine Uber- 
schuBbedeutung, d.h. die Bedeutung eines theoretischen Begriffs kann durch 
endlich viele Beobachtungsbegriffe nicht vollstandig erfaBt werden. Nun wird 
fur einen theoretischen Begriff kaum je eine optimale empirische Entsprechung 
zu spezifizieren sein, in der Regel werden verschiedene mogliche empirische 
Real isierungen zur Auswahl stehen. So kann „Dissonanz" in ganz unter- 
schiedlichen praktischen Situationen auftreten, und Einstellungen werden so- 
wohl aus verbalen Antworten wie aus dem beobachtbaren Verhalten in naturli- 
chen Situationen ermittelt (vgl. Cook & Selltitz, 1964). Wird eine Untersu- 
chung lediglich mit anderen Operational isierungen wiederholt, spricht man 
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von einer konzeptuel I en Replikation (Carlsmith, Ellsworth & Aronson, 1976, 
64-81; Bredenkamp, 1979). 

Wir wollen die konzeptuel le Replikation als um so starker bezeichnen, je grower 
die Anzahl der beru cksi cht i gten empirischen Entsprechungen ist und je ver- 
schiedenartiger die Bereiche sind, aus denen diese Realisierungen stammen. 

Es kann durchaus der Fall auftreten, daG die zu prufende Hypothese nur fur 
einen Teil der moglichen empirischen Realisierungen gultig ist, fur den ande- 
ren dagegen nicht. So mag unsere Hypothese WH U bspw. zutreffen, wenn 
„Dissonanz" durch einstellungskontrare Handlungen operationalisiert wird, 
nicht aber wenn die empirische Entsprechung einstellungskontrare Informa- 
tion ist. In ihrer allgemeinen Formulierung ware die WH U dann falsch. In 
einem solchen Falle ist die Wahrscheinlichkeit, bei Falschheit der Hypothese 
auch ein ihr widersprechendes empirisches Ergebnis zu erhalten, um so hoher, 
je starker die konzeptuelle Replikation ist. Deshalb ist allgemein die P rufu ng 
einer H ypothese um so strenger, je starker konzeptuell repliziert wird. Konzep- 
tuelle Replikationen sind insbesondere dann notwendig, wenn es bereits be- 
wahrte Storungshypothesen gibt, aus denen hervorgeht, daG die geprufte Hy- 
pothese nur fur bestimmte Realisierungen gelten konnte. 

Fur den theoretischen Begriff, der der UV der gepruften Hypothese ent- 
spricht, kann in einer Untersuchung meist nur eine empirische Entsprechung 
einbezogen werden. Die konzeptuelle Replikation der AV ist zwar durch 
multivariate Untersuch ungen mit theoretisch unbegrenzt vielen Entsprechun- 
gen der AV leichter moglich, versuchs- und auswertungstechnische Probleme 
setzen aber auch hier i.a. enge Grenzen (siehe Teil 8). Deshalb sind fur eine 
strenge Prufung einer Hypothese mehrere Untersuchungen notwendig, die 
sich nur hinsichtlich der vorgenommenen Operational isierungen unterschei- 
den. 3 ) Erst danach ware eine Falsifikation der Hypothese zu rechtfertigen. 

Ergeben sich bei der konzeptuellen Replikation unterschiedliche Resultate im 
Hinblick auf die Gultigkeit der Hypothese, braucht das nicht unbedingt zu 
einer generel len Verwerfung der Hypothese zu fuhren, sondern kann auch 
AnlaG sein fur eine Neuabgrenzung Oder Differenzierung des entsprechenden 
theoretischen Begriffs (Carlsmith, Ellsworth & Aronson, 1976; Bredenkamp, 
1979) Oder fur eine Anderung der Zuordnungsregel. 

Auf jeden Fall machen die bisherigen Ausfuhrungen zur Variablenvaliditat 
deutlich, daG kaum je eine wissenschaftliche Hypothese schon aufgrund des 
Ergebnisses einer einzigen empirischen Untersuchung als falsifiziert Oder gut 
bewahrt bezeichnet werden sollte. 



3 ) Von den moglichen Operational isierungen stehen dem Experi mentator aus techni- 
schen Oder ethischen Grunden meist nicht alle zur Verfugung (zu den ethischen Proble- 
men beim Experi mentieren siehe Klauer, 1973, 149-160; Carlsmith, Ellsworth & 
Aronson, 1976, 93-117; Schuler, 1980). 
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2.3 Mangelnde Entsprechung im Variationsbereich von theoreti- 
schen und empirischen Variablen als Storfaktor (VV) 

Diese mogliche Beeintrachtigung der Variablenvaliditat betrifft fast ausschlieB- 
lich die unabhangigen Variablen. Fur die ihnen entsprechenden theoretischen 
Variablen kann jeweils ein bestimmter Variationsbereich umschrieben werden. 
So kann unsere Variable „Dissonanz" von „fehlender Dissonanz" in - ideal i- 
ter - unendlich vielen verschiedenen Abstufungen bis zu einer „extrem star- 
ken Dissonanz" schwanken. Fur eine adaquate empirische Realisierung ist ein 
entsprechender Variationsbereich zu fordern. Wird eine theoretische Variable 
im Experiment als UV operationalisiert, werden aus der groBen Zahl von 
moglichen Auspragungen meist nur relativ wenige berucksichtigt. Nun ist es 
aber durchaus moglich, daB die geprufte Flypothese nur fur bestimmte Teil- 
mengen der Auspragungen gultig ist (z.B. konnten nur mittlere Dissonanzen 
zu Einstellungsanderungen fuhren). Ein Experiment ist folglich um so valider, 
je mehr Auspragungen der UV berucksichtigt sind bzw. je vollstandiger die 
verwendeten Auspragungen dem moglichen Variationsbereich der theoreti- 
schen UV entsprechen. Dabei kommt es nicht nur darauf an, daB empirische 
Entsprechungen fur die extremen Bereiche der theoretischen Variablen vor- 
handen sind, vielmehr muB der dazwischenliegende Bereich reprasentiert sein, 
um auch U-formige Oder noch kompliziertere Beziehungen zwischen unab- 
hangiger und abhangiger Variable entdecken zu konnen (vgl. Wormser, 1974). 

Da die Menge der moglichen Auspragungen der UV meist entweder unendlich 
Oder nicht genau zu spezifizieren ist, ist die angestrebte Entsprechung nicht 
durch eine Zufallsauswahl der zu verwendenden Auspragungen zu erreichen, 
sondern nur durch eine systematische Auswahl (z.B. je eine Behandlungsbe- 
dingung mit groBer, mittlerer und fehlender Dissonanz). Dann besteht auch 
die Moglichkeit, neben der Flypothese uber den generellen EinfluB der UV auf 
die AV noch spezifischere Flypothesen uber die Beziehung in einzelnen Teil- 
bereichen der UV zu prufen. Gerade bei der Durchfuhrung von Experimenten 
in der Sozialpsychologie ist es oft gar nicht so einfach, extreme Auspragungen 
der theoretischen unabhangigen Variablen zu realisieren. Die im Experiment 
moglichen Behandlungen sprechen namlich wegen der Kunstlichkeit der Situa- 
tion in der Regel die Probanden viel zu wenig an, um beispielsweise eine starke 
Dissonanz zu erzeugen (Carlsmith, Ellsworth & Aronson, 1976). Von daher 
stellen Experimente nicht unbedingt immer die strengstmogliche Prufung einer 
Flypothese dar (vgl. Teil 4 und 5). Vielmehr mussen wir gerade im Experiment 
mit einer Storung der Variablenvaliditat dadurch rechnen, daB die experimen- 
telle Manipulation nur geringen Unterschieden auf der theoretischen UV ent- 
spricht und deshalb u.U. nicht die von der Flypothese vorhergesagte Wirkung 
auf die AV zeigt. In Abhangigkeit von der Art der wissenschaftlichen Flypo- 
these (vgl. Abschn. 8.1) kann eine solche Storung der Variablenvaliditat zu 
ungerechtfertigten Falsifikationen Oder Bestatigungen fuhren. 
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2.4Zu geringes Skalenniveau alsStorfaktor (VV) 

Wir beginnen mit einer These, die wir im folgenden erlautern und begrunden: 

Die Prufung einer wissenschaftlichen Hypothese ist urn so strenger, je besser das 
Skalenniveau der empirischen Variablen der Struktur der theoretischen Begrif- 
fe entspricht. 

Die Struktur eines theoretischen Merkmals Oder Begriffs ist festgelegt durch 
die Art der Relationen, die auf der Menge aller Merkmalsauspragungen defi- 
niert sind (vgl. dazu Stegmuller, 1974b). Ein Merkmal hat die einfachste Form 
einer Struktur, wenn man lediglich mehrere einander ausschlieBende und er- 
schopfende Auspragungen unterscheidet, bei Einstellungen beispielsweise 
„konservative", Jiberale" und „sonstige". Geht man davon aus, daB zwischen 
den Auspragungen eine Rangordnung besteht, berucksichtigt man schon ein 
Strukturmerkmal mehr. Man gelangt dadurch zu komparativen Begriffen. Die 
hochste uns interessierende Form der Strukturiertheit haben metrische Begrif- 
fe: Bei ihnen sind zwischen den einzelnen Auspragungen auch Abstande defi- 
niert, man will also z.B. eine Aussage daruber machen konnen, ob der Unter- 
schied in der Einstellung zu Gastarbeitern zwischen Alfred und Bruno groBer 
ist als zwischen Claus und Dirk. Nehmen wir nun an, wir flatten dem uns 
interessierenden theoretischen Einstellungsbegriff als empirische Entspre- 
chung das numerische Ergebnis Y eines genau definierten Skalierungsverfah- 
rens zugeordnet. Bei einem komparativen Einstellungsbegriff wurde das etwa 
der folgenden Zuordnungsregel entsprechen: 

(1) Wenn Person l eine positivere Einstellung zu Gastarbeitern hat als Person 
2, ist Y x groBer als Y 2 . 

Bei einem metrischen Einstellungsbegriff muB zusatzlich noch die Entspre- 
chung von Abstanden auf der theoretischen Variablen und Differenzen auf der 
empirischen Variablen festgelegt werden: 

(2) Wenn der Unterschied in den Einstellungen der Person 1 und 2 groBer 
ist als der bei den Personen 3 und 4, dann gilt | Y x — Y 2 | > c |y 3 — Y 4 |. 4 ) 

Die Zuordnungsregel (1) ist aber nur dann sinnvoll, wenn Y eine Messung 
mindestens auf Ordinalskalenniveau ist (vgl. Suppes & Zinnes, 1963). Flaben 
die Y-Werte namlich kein Ordinal-, sondern nur Nominalskalenniveau, kon- 



4 ) Zuordnungsregel n dieser Art sind keine ,,operationalen Definitionen" im Sinne 
Bridgmans (1927), weil sie eine andere logische Struktur aufweisen. Ferner gehen wir 
davon aus, daB einem theoretischen Begriff durch mehrere Zuordnungsregel n mehrere 
empirische Variablen entsprechen konnen. Siehe zur Inadaquatheit von operationalen 
Definitionen u.a. Bunge (1967a), Herrmann (1973) und Stegmuller (1974b). 
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nen die von Personen zugeordneten Zahlenwerte insofern beliebig transfor- 
miert werden, als lediglich gewahrleistet sein muB, daB genau die Personen, 
die vor der Transformation gleiche Zahlenwerte auf der Variablen Y hatten, 
auch nach der Transformation gleiche Zahlenwerte zugeordnet bekommen. 
Druckt man diese Forderung formal aus, ergibt sich: Hat die Zahlenzuord- 
nung nur Nominalskalen niveau, sind beliebige eineindeutige Transformatio- 
nen erlaubt. Damit sind aber auch nicht-monotone Transformationen zulassig, 
und Aussagen uber die Rangordnung von Zahlenwerten sind empirisch nicht 
sinnvoll, da ihr Wahrheitswert sich unter diesen zulassigen Transformationen 
andert. 

Entsprechend kann begrundet werden, daB Zuordnungsregel (2) nur dann 
sinnvoll ist, wenn Y Intervallskalenniveau aufweist. Nur in diesem Fall bleibt 
namlich bei erlaubten Transformationen der Zahlen die in der Zuordnungsre- 
gel (2) getroffene Aussage uber die GroBenordnung von Zahlendifferenzen in 
ihrem Wahrheitswert erhalten. 

Welche Konsequenzen hat es fur die Prufung einer Kausalhypothese, wenn 
das durch die Struktur der theoretischen Begriffe und die Art der Zuordnungs- 
regel geforderte Skalenniveau nicht gegeben ist? Nehmen wir als Beispiel an, 
unsere Einstellungsvariable Y habe kein Ordinalskalenniveau. Dann ist die 
Zuordnungsregel (1) nicht mehr sinnvoll, und die Aussage der Hypothese 
WH U kann nicht mehr in die Aussage ,,ubersetzt" werden, daB unter der 
Dissonanzbedingung der Wert der Variablen Y groBer ist als unter der Bedin- 
gung „keine Dissonanz". uber diese Prognose ist WH U also nicht mehr pruf- 
bar. Wir konnen diesen Sachverhalt auch anders formulieren: Wird aus einer 
wissenschaftlichen Hypothese eine Aussage uber die Rangordnung von Ein- 
zelwerten Oder Medianen auf einer empirischen Variablen abgeleitet, muB 
diese Variable mindestens Ordinalskalenniveau haben. Sind in der Hypothese 
metrische Begriffe enthalten und wird aus ihr eine Vorhersage abgeleitet, die 
zum Beispiel die Rangordnung arithmetischer Mittelwerte Oder die GroBe von 
Produkt-Moment-Korrelationskoeffizienten betrifft, muB mindestens Inter- 
vallskalenniveau vorliegen, da diese Aussagen ihren Wahrheitswert verandern 
konnen, wenn alle monotonen Transformationen erlaubt sind - zur Begrun- 
dung siehe Suppes & Zinnes (1963) und Orth (1974). 

Allgemein gilt: Liegt das durch die Struktur der theoretischen Begriffe und die 
Art der aus der wissenschaftlichen Hypothese abgeleiteten Vorhersage gefor- 
derte Skalenniveau nicht vor, kann die Hypothese uber diese Vorhersage nur 
einer weniger strengen Prufung unterzogen werden. 

Diese Uberlegungen haben wichtige Konsequenzen fur die Anwendung stati - 
stischer Testverfahren. Wie im Teil 6 noch zu zeigen sein wird, werden zur 
Uberprufung wissenschaftlicher Kausalhypothesen aus ihnen statistische Hy- 
pothesen abgeleitet. Die ublichen parametrischen Testverfahren wie der t- und 
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der F-Test (s. dazu im einzelnen Teil 7) prufen vor allem statistische Hypothe- 
sen uber Gleichheit und Rangordnung von arithmetischen Mittelwerten bzw. 
uber Produkt-Moment-Korrelationen. Diese statistischen Hypothesen stellen 
nach dem oben Gesagten nur sinnvolle Aussagen dar, wenn die jeweilige empi- 
rische Variable mindestens Intervallskalenniveau hat. AuBerdem mussen zur 
mathematischen Begrundung dieser Tests u.a. Annahmen uber Normalvertei- 
lung und Varianzgleichheit gemacht werden, die ebenfalls nicht sinnvoll sind, 
wenn nur Ordinalskalenniveau vorliegt, da sich diese Verteilungsaspekte bei 
bestimmten monotonen Transformationen andern (s. Abschn. 8.2). Obwohl 
ein bestimmtes Skalenniveau nicht zu den mathematischen Voraussetzungen 
der parametrischen Testverfahren gehort (Lord, 1953; Gaito, 1960b, 1980; 
Anderson, 1961; McNemar, 1962; S. 375), ist deren Anwendung und Inter- 
pretation aus den genannten Grunden nur sinnvoll, wenn mindestens 
Intervallskalenniveau vorliegt. 5 ) Wie wir am Ende dieses Abschnitts sehen 
werden, wird dadurch ihr Anwendungsgebiet aber weniger eingeschrankt, als 
es auf den ersten Blick scheinen mag. 

Gehen wir zunachst auf die Frage ein, wie man das Skalenniveau einer Varia- 
blen bestimmt. Nach der Definition von Suppes & Zinnes (1963) stellt eine 
Zuordnung von Zahlen zu Objekten dann eine Messung dar, wenn durch die 
Beziehungen zwischen den Zahlen empirisch beobachtbare Beziehungen zwi- 
schen den Objekten widergespiegelt werden. Sind diese empirischen Bezie- 
hungen unabhangig von jeder Zahlenzuordnung beobachtbar, kann man von 
einer Reprasentationsmessung sprechen (s. Dawes, 1977). Die hinreichenden 
Bedingungen dafur, daB eine solche Zahlenzuordnung Ordinal- bzw. Inter- 
vallskalenniveau hat, sind in den Axiomen sogenannter M eBstrukturen formu- 
liert (Krantz et al ., 1971; Orth, 1974). Um in einem konkreten Anwendungs- 
fall das Skalenniveau zu bestimmen, muB gepruft werden, ob die empirisch 
beobachtbaren Beziehungen zwischen den MeBobjekten, die durch die Zahlen 
reprasentiert werden sollen, diese Bedingungen erfullen (zur praktischen 
Durchfuhrung dieser Prufung siehe Westermann, 1980, im Druck, b). 

Fur die meisten in der Psychologie verwendeten Zahlenzuordnungen lassen 
sich jedoch gar keine unabhangig beobachtbaren Beziehungen zwischen Ob- 
jekten auffinden, die eventuell reprasentiert werden konnen. Wir sprechen 
dann nicht von einer Representations-, sondern von einer Indexmessung (vgl. 
Suppes & Zinnes, 1963; Dawes, 1977; Allerbeck, 1978). Solchen Variablen 



5 ) Zur kontroversen Diskussion uber die Beziehung zwischen Skalenniveau und Stati - 
stik siehe z.B. Stevens, 1951; Lord, 1953; Suppes & Zinnes, 1963; Adams, Fagot & 
Robinson, 1965; Baker, Hardyck & Petrinovich, 1966; Pfanzagl, 1968, S. 34-56; 
Gardner, 1975; Lantermann, 1976; Dawes, 1977, Kap. 7; Steinfatt, 1977; Allerbeck, 
1978 sowie ferner die Reader von Heermann & Braskamp, 1970; Liebermann, 1971; 
Steger, 1971 und Kirk, 1972. 
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kann jedes gewunschte Skalenniveau zugeschrieben werden, falls sie sich nur 
irgendwie auf eine A bzah I operation zuruckfuhren lassen („Messung per fiat"). 

Postuliert man z.B. Intervallniveau fur das Ergebnis eines Fragebogentests (gegeben 
durch dieAnzahl der positiven Antworten), und ordnet man diese Variable einem 
metrischen Einstellungsbegriff zu, muK man sich daruber im klaren sein, daK damit die 
Annahme verbunden ist, daK z.B. zwischen Personen, die 4 und 6 positive Antworten 
gegeben haben, der gleiche Einstellungsunterschied besteht wie zwischen Personen mit 
22 und 24 positiven Antworten. Man definiert damit praktisch die Abstande hinsicht- 
lich des theoretischen Begriffs in Abhangigkeit von einer konkreten Zahlenzuordnung. 
Dieses Vorgehen ist nicht von vornherein unberechtigt, denn der Wissenschaftler ist ja 
in der Definition seiner theoretischen Begriffe relativ frei, wenn er mit Herrmann 
(1973) davon ausgeht, daK diese theoretischen Begriffe keine realen Entitaten mit einer 
zu entdeckenden Struktur bezeichnen. 

Fur einen Wissenschaftler, der empirisch gehaltvolle und uberprufbare Theo- 
rien aufstellen will, wird es aber immer das Ziel sein mussen, representational e 
Messungen mindestens auf Interval I skalenniveau zu verwenden. Bei der In- 
dexmessung drucken die Zahlen nur die unterschied lichen Antworthaufigkei- 
ten in einem gegebenen Erhebungsverfahren aus. Bei einer Reprasentations- 
messung auf Interval I skalenniveau dagegen reprasentieren Ordnung und Ab- 
stande zwischen Zahlen empirisch beobachtbare Relationen, wie sie z.B. ent- 
stehen, wenn Probanden personliche Praferenzen und subjektive Unterschiede 
hinsichtlich eines definierten Merkmals bei verschiedenen Objekten ausdruk- 
ken. Von daher ist die Zuordnung von theoretischen und empirischen Varia- 
blen bei einer Reprasentationsmessung wesentlich weniger beliebig als bei 
einer Indexmessung, wodurch die entsprechenden Hypothesen einer starkeren 
Prufung zuganglich werden (siehe exemplarisch fur den Einstellungsbegriff 
Wester man n, 1982). 

DaK psychologische Variablen auf Intervallskalenniveau gemessen werden, ist unter 
anderem deshalb wichtig, weil bei Ordinalskalenniveau lediglich Aussagen uber mono- 
tone Zusammenhange zwischen Variablen gemacht werden konnen und Aussagen uber 
die Art der Funktion (linear, Sfbrmig usw.) erst sinnvoll sind, wenn mindestens Inter- 
vallskalenniveau vorliegt. 

Welche neuen Aspekte ergeben sich nun fur die Prufung statistischer Hypo- 
thesen durch parametrische Testverfahren? Zwar sol Ite bei subjektiven Varia- 
blen wie „Einstellung zu Gastarbeitern" , „Arbeitszufriedenheit" Oder „Angst" 
die Annahme des Intervallskalenniveaus durch die empirische Prufung meK- 
theoretischer Axiome fundiert werden, doch betreffen viele empirische Vor- 
aussagen, die zur Uberprufung wissenschaftlicher Hypothesen abgeleitet wer- 
den, physikalische Variablen wie ,,Reaktionszeit" Oder „Hautwiderstand". 
Diese haben i.d. R. Verhaltnisskalenniveau (zur Begrundung Orth, 1974, 
47-49). Andere Vorhersagen betreffen Variablen, die als einfache Abzahlun- 
gen interpretiert werden konnen und damit zwangslaufig auf Absolutskalenni- 




42 



Willi Hager und Rainer Westermann 



veau liegen. So konnte - als Beispiel zum letzten Punkt - aus einer Kausal- 
hypothese abgeleitet werden, daB die Anzahl der positiven Antworten zu 
Gastarbeitern im Fragebogen FB um so groBer ist, je starker die erzeugte 
Dissonanz war. Falls keine zu starken Abweichungen von den mathemati- 
schen Voraussetzungen fur die parametrischen Tests vorliegen (s. Abschn. 
8.2), konnen sie auch in diesem Fall verwendet werden, um die abgeleitete 
statistische Hypothese zu uberprufen. Uberhaupt kein Hindernis fur die An- 
wendung parametrischer Tests stellen Probleme des Skalenniveaus dar, wenn 
man keine wissenschaftliche Hypothese pruft, die in theoretischen Begriffen 
formuliert ist, sondern vielmehr die statistische Hypothese selbst als wissen- 
schaftliche Hypothese betrachtet (s. Abschn. 1.2). 

Dies ist der Fall, wenn man z.B. nicht prufen will, ob bei „Dissonanz" die „Ei nstel I un- 
gen" positiver werden, sondern nur wissen will, ob unter einer bestimmten Bedingung 
A dieWerteim Einstellungstest ET hoher sind als unter der Bedingung nicht-A. Da 
hier nur der Zusammenhang von ganz bestimmten, genau definierbaren empirischen 
Variablen untersucht wird, sind bezuglich der AV keinerlei Transformationen sinnvoll, 
und man kann diese Variable zur Intervall- Oder Verhaltnisskala deklarieren (Messung 
per fiat). 



2.5 Konfundierung von theoretischen Begriffen 
als Storfaktor (VV) 

Bisher haben wir fur eine strenge Prufung u.a. gefordert, daB die Menge der 
moglichen empirischen Realisierungen fur einen theoretischen Begriff genau 
abzugrenzen ist. Das schlieBt nicht aus, daB eine bestimmte empirische Varia- 
ble als Operational i si erung fur mehrere theoretische Begriffe betrachtet wer- 
den kann. Man bezeichnet diese Begriffe dann als konfundiert. In diesem Fall 
ist es leichter moglich, gut bewahrte Storungshypothesen zu finden, die die 
gleiche Prognose erlauben wie die zu prufende Hypothese. Dadurch kann die 
Moglichkeit einer strengen Prufung dieser Hypothese stark gefahrdet werden. 
Wir wollen dies anhand von vier Fallgruppen naher untersuchen. 

1. Recht haufig wird in der Psychologie fur eine gegebene Menge experimen- 
teller Bedingungen, die Operational isierungen unterschiedlicher Auspragun- 
gen eines theoretischen Begriffs darstellen sollen, eine alternative theoretische 
Interpretation gegeben. 

So fuhrt beispielsweise Bern (1972, 1975) die Einstellungsanderungen in den Experi- 
menten zur Prufung von Festingers Dissonanztheorie nicht auf Unterschiedein der 
erzeugten Dissonanz zuruck, sondern geht davon aus, daB experimentelle Bedingun- 
gen, die nach Festinger unterschiedlichen AusmaBen an „kognitiver Dissonanz" ent- 
sprechen, zumeist fur die Probanden unterschiedliche „Selbstwahrnehmungen" mit 
sich bringen, die dann zu unterschiedlichen „Ei nstel I ungen" fuhren. 
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Eine solche Konfundierung theoretischer Begriffe schrankt aber die Moglich- 
keit strenger Prufungen aller beteiligten Hypothesen und Theorien nicht ein, 
vielmehr wird durch sie uberhaupt erst die Moglichkeit eroffnet, bei empiri- 
scher N ichtbewahrung einer Hypothese Oder Theorie T, diese empirischen 
Ergebnisse im Rahmen einer anderen Theorie T, mit anderen theoretischen 
Begriffen zu erklaren. Diese Art von Konfundierung ist also kein Mangel, 
sondern Voraussetzung fur Erkenntnisfortschritt (vgl. Abschn. 1.3). 

2. Auch die abhangige Variable einer Untersuchung entspricht kaum je einein- 
deutig dem theoretischen Begriff, dem sie zugeordnet ist. In unterschiedlichen 
Werten der Personen auf der AV konnen sich vielmehr nicht nur unterschiedli- 
che Auspragungen der entsprechenden theoretischen Variablen ausdrucken, 
sondern auch Unterschiede auf einer ganzen Reihe von anderen theoretischen 
Variablen. So konnen nicht nur positivere Auspragungen der Variablen „Ein- 
stellung zu Gastarbeitern" zu hoheren Werten im entsprechenden Einstel- 
lungstest fuhren, sondern beispielsweise auch starkere Auspragungen von Va- 
riablen wie „Antworten gemaB sozialer Erwunschtheit", „Ja-Sage-Tendenz" 
und „Tendenz zu extremen Antworten". DaB solche sog. R eaktionssti le („re- 
sponse sets") mit der in der Untersuchung interessierenden theoretischen ab- 
hangigen Variablen konfundiert sind, ist typisch fur die in der Sozialforschung 
verbreiteten verbalen Skalierungsmethoden. Man kann den storenden EinfluB 
dieser Art von Konfundierung auf die Validitat der Untersuchung verringern, 
indem man im Rahmen einer konzeptuellen Replikation (siehe Abschn. 2.2) 
auch „nicht-verbale" Realisierungen des entsprechenden theoretischen Begriffs 
einbezieht und/ Oder indem man das Erfassungsinstrument so konstruiert, daB 
diese Antworttendenzen sich moglichst wenig auswirken konnen (siehe dazu 
Edwards, 1957a, b, 1970; Cook & Selltitz, 1964; Berg, 1967; Scott, 1968; 
Holm, 1975, 1976, 1977; Koch, 1976). 

Auch wenn die R el i abi I itat der empirischen Variablen gering ist, liegt eine Storung der 
Variablenvaliditat durch Konfundierung theoretischer Begriffe vor: Im Sinne der klassi- 
schen Testtheorie (vgl. Lord & Novick, 1968; Fischer, 1974; Kranz, 1979; Wottawa, 
1980) sind dann in den beobachteten Werten der empirischen Variablen MeBfehler mit 
den sog. „wahren" Werten in einem zu groBen MaBe vermengt. 

3. Nach einer hauptsachlich auf Orne (1962) zuruckgehenden Auffassung ver- 
halten sich Teilnehmer eines Experimentes gemaB ihren Hypothesen daruber, 
was im Experiment von ihnen erwartet wird, was Ziel und Sinn dieses Experi- 
mentes ist. 6 ) Die Art der von den Versuchspersonen (Vpn) gebildeten Hypo- 



6 ) Zu Einzelheiten uber Forschungen zur Sozialpsychologie des Experimentes siehe 
z.B. Rosenthal & Rosnow, 1969a; Klauer, 1973; Timaeus, 1974, 1975; Kruglanski, 
1975; Mertens, 1975; Barber, 1976; Gniech, 1976; Rosnow & Davis, 1977; Silverman, 
1977; Rosenthal & Rubin, 1978; Bungard, 1980; Callaway, Nowicki & Duke, 1980. 
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thesen hangen von gewissen „demand characteristics" der experimentellen Si- 
tuation ab. Eine dieser Determinanten der Probanden-Hypothesen sind die 
Erwartungen des Versuchsleiters, deren Auswirkungen ausfuhrlich von Ros- 
enthal (1969, 1977) untersucht wurden. Werden nun die Auspragungen einer 
theoretischen Variablen durch unterschiedliche experimentelle Bedingungen 
operationalisiert, haben diese Bedingungen unterschiedliche „demand charac- 
teristics" und konnen folglich zu unterschiedlichen Hypothesen bei den Vpn 
fuhren. Unter der Gultigkeit der Auffassung von Orne waren also die theoreti- 
sche Variable, die der experimentellen UV entspricht, und die Variable „Hy- 
pothesen der Vpn" zwangslaufig konfundiert. Nun ist zwar die Annahme, date 
das Verhalten im Experiment generell von den Hypothesen der Vpn bestimmt 
wird, empirisch kaum zu stutzen (Bredenkamp 1980, 41-47), doch muB man 
in einzelnen Untersuchungen immer mit solchen Effekten rechnen. Um eine 
moglichst strenge Prufung einer Hypothese zu erreichen, muB man sich folg- 
lich bemuhen, die Bildung entsprechender VP-Hypothesen zu erschweren, 
bzw. man muB verhindern, daB eine eventuelle Hypothesenbildung bei den 
Vpn die gleiche empirische Auswirkung hat, die auch von der zu prufenden 
Kausalaussage vorhergesagt wird. In unserem Fall muB etwa verhindert wer- 
den, daB die Vpn unter der Dissonanz-Bedingung leicht erkennen konnen, daB 
von ihnen eine Einstellungsanderung erwartet wird. 

Es gibt eine Reihe von Techniken, die verhindern sollen, daB Probanden unter 
verschiedenen experimentellen Bedingungen unterschiedliche Hypothesen 
uber das von ihnen erwartete Verhalten bilden (siehe Carlsmith, Ellsworth & 
Aronson, 1976, 280-301 und Rosnow & Davis, 1977): 

- man vermeidet, daB Personen Unterschiede zwischen den Behandlungsbe- 

dingungen uberhaupt wahrnehmen konnen (Blindversuch, ahnlich den 

Placebo-Experimenten in der Pharmaforschung), 

man verleitet alle Personen dazu, falsche Hypothesen zu bilden, 

man erhebt die AV in einer anderen Situation, 

man tauscht die Personen uber ihre Rolle als Versuchspersonen, z.B. in- 
dem man sie glauben macht, sie seien die Versuchsleiter, 

- man fuhrt ein Feldexperiment (s. Abschn. 3.6) durch, in dem die Personen 

nicht bemerken, daB sie Teilnehmer an einer wissenschaftlichen Untersu- 
chung sind, 

man untersucht als AV statt leicht zu gebender und folgenloser verbaler 
Antworten offene Verhaltensweisen, die fur die Probanden auch subjektiv 
bedeutsam sind, 

man vermeidet wiederholte Erfassungen der AV an den gleichen Personen 
(s.a. Abschn. 3.2). 

man pruft Hypothesen, die schwierig zu „erraten" sind, 

- man bittet die Probanden um ehrliches und unvoreingenommenes Ant- 

wortverhalten. 
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Vom Experi mentator ausgehende storende Beeinflussungen des Versuchsper- 
sonen-Verhaltens konnen vor allem dadurch eingeschrankt werden, daB der 
Versuchsleiter die geprufte Hypothese nicht kennt (naiver Versuchsleiter) und/ 
Oder daB er nicht weiB, welcher experi mentel I en Bedingung diejeweils unter- 
suchte Person zugeordnet ist (Doppelblindversuch). Auch eine Standardisie- 
rung der Kommunikation zwischen Versuchsleiter und -personen kann die 
Gefahr einer solchen Validitatsstorung vermindern. 

4. Wir wollen jetzt eine Art von Konfundierung ansprechen, deren AusmaB 
davon abhangt, wie der Experi mentator die experi mentel I en Modalitaten defi- 
niert. Stellen wir uns dazu zwei unterschiedliche empirische Realisierungen 
von „starker Dissonanz" (X,) und „fehlender Dissonanz" (X 2 ) fur eine Person 
mit einer negativen Einstellung zu Gastarbeitern vor. (Im folgenden beziehen 
sich die eingeklammerten Indices auf die beiden Falle 1 und 2.) 

Fall 1: X (1)i: Einen Abend mit einer sehr angenehmen Gastarbeiterfamilie 

verbringen. 

X (1 ) 2 : Einen negativen Text uber Gastarbeiter lesen. 

Fall 2: X (2)1 : Einen sehr positiven Text uber Gastarbeiter lesen. 

X (2)2 : Einen negativen Text uber Gastarbeiter lesen. 

Die Bedingungen X (1)1 und X (1)2 unterscheiden sich nicht nur hinsichtlich der 
„Dissonanz", sondern auch noch hinsichtlich der empirischen Entsprechun- 
gen einer groBen Zahl anderer theoretischer Variablen. Demzufolge sind im 
Fall 1 eine Fulle von Storungshypothesen denkbar, die die gleiche Prognose 
erlauben wie die WH U . So konnte eine positivere Einstellung unter X (1)1 als 
unter X (1)2 durch die recht gut bewahrte Flypothese vorhergesagt werden, daB 
Einstellungsanderungen durch personliche Kontakte eher erfolgen als durch 
verbale Information. Auch im Fall 2 konnen sich die Bedingungen noch hin- 
sichtlich anderer Variablen als „Dissonanz" unterscheiden (z. B. „Verstand- 
lichkeit" Oder ,,Glaubwurdigkeit" etc.), ihre mogliche Anzahl ist aber doch 
weit geringer als im Fall 1. Daher sind auch weniger bewahrte Storungshypo- 
thesen zu erwarten. Im Fall 2 liegt also eine strengere Prufung unserer Hypo- 
these WH, vor als im Fall 1. 

In diesem Beispiel wird deutlich, daB zur strengen Prufung einer Hypothese 
die experi mentel I en Bedingungen, die empirische Realisierungen von verschie- 
denen Auspragungen der theoretischen unabhangigen Variablen darstellen, 
sich so weit ahneln sollen, daB hinsichtlich moglichst weniger anderer Varia- 
blen systematische Unterschiede bestehen. Dieses Ziel ist allerdings besonders 
in sozialpsychologischen Untersuchungen mit relativ komplexen theoretischen 
Variablen recht schwer zu erreichen (siehe Carlsmith, Ellsworth & Aronson, 
1976, 61-64, sowie ferner Underwood & Shaughnessy, 1975, 28-36). 
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2.6 Zusammenfassung 

Wir haben in diesem Abschnitt eine erste Gruppe von Faktoren kennenge- 
lernt, die dazu fuhren konnen, daB eine Untersuchung keine strenge Prufung 
der gegebenen Hypothese darstellt. Da diese Faktoren die Beziehung zwischen 
den in der Untersuchung auftretenden beobachtbaren Begriffen (Variablen, 
Bedingungen) und den entsprechenden theoretischen Variablen aus der zu 
prufenden Hypothese betreffen, haben wir sie als Storfaktoren der Variablen- 
Validitat - Storfaktoren (VV) - bezeichnet. 

Nach unseren Uberlegungen ist eine Kausal hypothese um so strenger prufbar, 

— je eindeutiger den theoretischen Begriffen der Hypothese empirische Va- 
riablen („Operationalisierungen") zugeordnet sind, 

— je mehr Operational! si erungen der theoretischen Begriffe berucksichtigt 
werden und je unterschiedlicher diese Operational! si erungen sind, 

— je mehr die berucksichtigten Auspragungen der UV den moglichen Aus- 
pragungen der entsprechenden theoretischen Variablen entsprechen, 

— je eher das Skalenniveau der empirischen Variablen der Struktur der zuge- 
horigen theoretischen Begriffe entspricht, 

— je weniger bei den berucksichtigten Operationalisierungen andere theoreti- 
sche Variablen mit den Begriffen der Hypothese konfundiert sind. 

(Die Konstanz aller anderen Bedingungen ist jeweils vorausgesetzt.) 



3. Interne V al i di tat 

Wie wir im Abschnitt 1.2 gesehen haben, folgt aus der Bedeutung von Kausal- 
aussagen, daft zu ihrer Uberprufung Beobachtungen unter mindestens zwei 
Bedingungen notig sind, die sich moglichst nur dahingehend unterscheiden, 
daB in einer Bedingung eine Entsprechung der in der Kausalaussage spezifi- 
zierten Ursache vorliegt, in der anderen jedoch nicht. Wir wollen das am 
Bei sp i el unserer Hypothese WH U kurz erlautern. 

Um diese WH U prufen zu konnen, kann im Rahmen eines einfachen Versuchs- 
planes (Vpl.) Oder Designs wie folgt verfahren werden: Zunachst wird bei der 
Person die AV ohne Dissonanz (Xj) gemessen (Variable Y n ), anschlieBend 
wird Dissonanz erzeugt (X 2 ) und daraufhin wird die AV erneut gemessen 
(Y 12 ). Bei einem derartigen Vorgehen spricht man von „intraindividueller Be- 
dingungsvariation", die folgendermaBen symbolisiert werden kann: 

(Vpl.) 1) X! Y 1( X 2 Y 12 

Wahlt man dagegen die sog. „interindividuelle B edi n gu ngsvar iation " , ist wie 
folgt vorzugehen: Bei einer Person wird Dissonanz erzeugt (X 2 ), bei einer 
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anderen jedoch nicht (X,), und die Einstellung der Personen wird gemessen 
(Y 22 und Y n ). Der resultierende Versuchsplan ergibt sich wie folgt: 

(Vpl.2) 2) Xj Y„ 

X 2 Y 22 

Unter Berucksichtigung der Zuordnungsregel (1) aus Abschnitt 2.4 wird bei 
Gultigkeit der Hypothese WH U erwartet, daB Y i2 grower als Y ;i ist. Die gleiche 
Vorhersage lalSt sich jedoch auch mit Hilfe anderer Hypothesen ableiten, falls 
sich die Messungen Y u und Y i2 nicht nur dadurch unterscheiden, daB vor Y i2 
die Dissonanzbedingung realisiert wurde, vor Y,, dagegen nicht. 

Wir wollen diese Bedingungen, die ebenfalls zu unterschiedlichen Werten auf 
der AV Y fuhren konnen, als „Storfaktoren der internen V aliditat" bezeich- 
nen.') Sie konnen zusatzlich zu den experimentellen Bedingungen (Xj versus 
X 2 ) wirksam werden Oder aber an ihrer Stelle. Die wichtigsten dieser Storfak- 
toren haben wir zu zwei Gruppen zusammengefaBt, auf die wir im folgenden 
eingehen - eine etwas andere Einteilung findet sich bei Campbell & Stanley 
(1963) und bei Cook & Campbell (1979). 



3.1 Variation personaler und situationaler Merkmale 
als Storfaktoren (IV) 

3.1.1 Variation situationaler Merkmale 

Beim Vpl. 1 kann zwischen erster und zweiter Messung neben X 2 noch ein 
anderes Ereignis aufgetreten sein, das nach einer bewahrten Storungshypothe- 
se die gleiche Auswirkung hat wie nach der zu prufenden Hypothese die 
experimentelle Behandlung X 2 . 

Bspw. konnte der Proband wahrend der Untersuchung zur Prufung unserer Hypothese 
WH„ sehr attraktive Gastarbeiterinnen kennengelernt haben, woraus nach der bewahr- 
ten Storungshypothese (vgl. Amir, 1969) „angenehme personliche Begegnungen mit 
Menschen aus einer bestimmten Gruppe verandern die Einstellung zur entsprechenden 
Gruppe zum Positiven hin" die gleiche Einstellungsanderung folgt wie aus der WH„ 

Entsprechend konnen beim Vpl. 2 sich die Situationen, in denen die beiden 
Messungen Y n und Y 22 erhoben wurden, uber den Unterschied zwischen X[ 
und X 2 hinaus noch hinsichtlich weiterer Merkmale unterscheiden. Liegt fur 

7 ) Wir konnen diese Bezeichnung von Campbell & Stanley (1963) ubernehmen, weil 
dieser Aspekt der experimentellen Validitat auch nach unserer Betrachtungsweise inso- 
fern „intern" ist, als (wie wir noch sehen werden) zur Kontrolle dieser Storfaktoren nur 
das gerade durchgefuhrte Experiment betrachtet werden muft, wahrend z.B. eine hohe 
Variablenvaliditat in aller Regel mehrere Untersuchungen erfordert. 
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mindestens eines dieser Merkmale eine bewahrte Storungshypothese vor, die 
die gleiche Prognose erlaubt wie die WH U , ist die interne Validitat der Unter- 
suchung nicht gewahrleistet. 



3.1.2 Variation personaler Merkmale 

Zwischen den beiden Messungen beim Vpl. 1 kann es unabhangig vom Eintre- 
ten von X 2 zur Veranderung eines Merkmals des Probanden kommen, aus der 
sich die Einstellungsanderung vorhersagen laBt. Bspw. kann das allgemeine 
Aggressivitatsniveau des Probanden sinken. 

Beim Vpl. 2 ist die interne Validitat gestort, wenn sich die Probanden unter 
den beiden experimentellen Bedingungen hinsichtlich eines Merkmals unter- 
scheiden und wenn dieser Unterschied nach einer bewahrten Hypothese das 
auch aus der WH U vorhergesagte empirische Ereignis zur Folge hat. 

Beispiele fur mogliche Storungshypothesen sind etwa: In der Bedingung X 2 liegt schon 
vor der Untersuchung eine positivere Einstel lung vor; der Proband unter X 2 tendiert 
starker dazu, sozial erwunschte Antworten zu geben. 



3.2 Storfaktoren (IV) bei MeRwiederholung 

Neben den bereits erwahnten, bei alien Designs moglichen Storfaktoren (IV), 
die in Unterschieden zwischen X 2 und X, hinsichtlich situationaler und perso- 
naler Merkmale bestehen, sind bei Designs mit wiederholter Messung der AV 
unter den verschiedenen experimentellen Bedingungen an den gleichen Perso- 
nen (intraindividuelle Bedingungsvariation, s. Vpl. 1) weitere Gruppen von 
moglichen Storfaktoren (IV) zu beachten (nach Campbell & Stanley, 1963; 
Namboodiri, 1972; Greenwald, 1976; Cook & Campbell, 1979; s.a. Edwards, 
1971, 225-226; Keppel, 1973, 395-400). 

(1) Veranderungen beim MeBinstrument 

Bei der zweiten Messung der AV kann sich das MeBinstrument verandert 
haben. Zum Beispiel konnen sich bei Erfassung der AV durch menschliche 
Beurteiler (Rater) deren Beurteilungskriterien mit der Zeit (oder zunehmender 
Beurteilungspraxis) verschieben. 

(2) Ausscheiden von Versuchspersonen 

Besonders wenn die Untersuchung sich uber einen langeren Zeitraum hi n- 
zieht, konnen zwischen erster und zweiter Messung einige Versuchspersonen 
ausscheiden. 
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(3) Sensitivierung 

Vpn konnen durch die erste Behandlung X t so sensitiviert werden, daB sie auf 
X 2 anders reagieren, als wenn sie allein X 2 ausgesetzt worden waren. 

(4) ubungs-, Ermudungs- und Erinnerungseffekte 

Bei der zweiten Messung kann der Wert der AV bspw. durch die groBere 
Vertrautheit mit den Aufgaben, durch einevon der ersten Messung herruhren- 
de Ermudung Oder auch durch die Erinnerung an die Antworten bei der ersten 
Messung mitbestimmt werden. 

(5) Vermengung von Behandlungswirkungen 

Der Wert der AV kann bei der zweiten Messung auBer durch X 2 auch durch 
die zuruckliegende experimentelle Behandlung X! beeinfluBt werden. 

Die beiden zuletzt angesprochenen Storfaktoren (IV) werden oft als „Carry- 
over-" Oder ,,Ubertragungseffekte" zusammengefaBt. Zur Erlauterung und 
Unterscheidung diene ein Beispiel von Greenwald (1976, 318): Zur Untersu- 
chung der Wirkung zweier Drogen auf die Reaktionszeit verabreicht ein Expe- 
rimentator (E) den Vpn nacheinander beide Drogen und laBt anschlieBend 
jeweils einen Reaktionstest durchfuhren. Ubungseffekte konnen dabei auftre- 
ten, wenn die im Test geforderten motorischen Tatigkeiten beim zweiten Mai 
besser beherrscht werden als beim ersten Mai. Eine Vermengung von Behand- 
lungswirkungen liegt dagegen vor, wenn die Wirkung der zuerst verabreichten 
Droge bei der zweiten Einnahme noch nicht vollstandig abgeklungen ist. 

Zusammenfassend wollen wir die 5 Storfaktoren (IV) bei MeBwiederholung als 
Sequenzeffekte bezeichnen. Liegt ein Sequenzeffekt vor, kann uber eine gut 
bewahrte Storungshypothese die gleiche Prognose abgeleitet werden wie aus 
der zu prufenden Kausalhypothese. In diesem Fall ist die interne Validitat der 
Untersuchung gestort. 

Diese Storfaktoren gelten nicht nur fur den bisher betrachteten Fall einer 
zweimaligen Messung, sondern auch wenn eine Person s unter K experimen- 
tellen Bedingungen beobachtet wird: 

(VPI. 3) X, Y„ X 2 Y s2 . .. X K Y sK 

Hier entstehen i.a. zudem Sequenzeffekte hoherer Ordnung, d.h. Beeinflus- 
sungen von weiter auseinanderliegenden Behandlungen und Messungen. 

Ein weiterer und moglicherweise gravierender Nachteil von Designs mit wie- 
derholten Messungen soli hier ebenfalls erwahnt werden, obwohl er eher zu 
den Storungen der Variablenvaliditat zu rechnen ist: Eine wiederholte Mes- 
sung, d.h. eine Beobachtung einer Person unter alien experimentellen Bedin- 
gungen, erleichtert die Bildung von Hypothesen uber das Ziel des Experi- 
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ments, und es besteht daher eine erhohte Gefahr, daft die unabhangige Varia- 
ble der zu prufenden Kausalhypothese nur konfundiert mit diesen Vermutun- 
gen des Probanden real isiert werden kann (siehe auch Abschnitt 2.5). 

Weshalb werden in der Psychologie trotz dieser zusatzlichen Gefahren fur die 
Val iditat der Untersuchung wiederholte Messungen der Personen unter alien 
experimentellen Bedingungen durchgefuhrt? 

Zum einen bieten sich M eGwiederholungen an, wenn die hier als storend 
klassifizierten 0 bungs- und Ubertragungseffekte selbst Gegenstand der Hy- 
pothesenprufung sind, wie dies etwa in Untersuchungen zum Lernfortschritt 
Oder zu Adaptationsphanomenen der Fall ist (vgl. Greenwald, 1976, 
316-318). Zum anderen werden Designs mit wiederholten Messungen wegen 
ihrer Okonomie angewendet: Eine Versuchsperson Jiefert" mehr Daten, und 
die fur Instruktion, Ubungsphase usw. notwendige Zeit ist geringer, als wenn 
jedes Beobachtungsdatum an einer anderen Versuchsperson erhoben werden 
wurde. 

Auf weitere Vor-, aber auch Nachteile werden wir ausfuhrlicher im Abschnitt 
8.4.6 zu sprechen kommen. 



3.3 Zur Kontrolle der Storfaktoren (IV) bei interindividueller 
Bedingungsvariation 

Glucklicherweise brauchen wir bei der Durchfuhrung von Untersuchungen 
die jeweilige Untersuchungssituation nicht nach den unendlich vielen poten- 
tiellen Storfaktoren (IV) abzuklopfen, um die moglichen Storungshypothesen 
einzeln auszuschalten. Vielmehr kann man diese Storfaktoren schon durch 
eine geeignete Planung der Untersuchung kontrollieren: durch Konstanthal- 
tung bzw. Elimination und durch die Zufallsordnung von Probanden zu den 
einzelnen Behandlungsbedingungen (Randomisierung). 

Wir konnen in diesem Artikel nur allgemein aufzeigen, durch welche Arten von MaR- 
nahmen die Storfaktoren (IV) zu kontrollieren sind, und dies durch Beispiele illustrie- 
ren. Konkrete Handlungsanweisungen in bezug auf die Gestaltung der Untersuchungs- 
situation (von der Auswahl der Stimuli uber ihre Darbietungsform und die physikali- 
sche Ausschaltung anderer Variablen bis hin zu den Verhaltensvorschriften fur den 
Versuchsleiter) konnen aus diesen allgemeinen Prinzipien fur jedes Einzelexperiment 
abgeleitet werden. Diesbezugliche Hinweise bieten daruber hinaus die eher praktisch 
orientierten Einfuhrungen in die experimentelle Psychologie (insbesondere Zimny, 
1961; Selg, 1975; Carlsmith, Ellsworth & Aronson, 1976; auBerdem z.B. Bugelski, 
1960; Underwood, 1966; Heckhausen, 1969; Matheson, Bruce & Beauchamp, 1970; 
Sheridan, 1971; Arnold, 1972; Runkel & McGrath, 1972; Traxel, 1974; Wormser, 
1974; Massaro, 1975; Fromkin & Streufert, 1976; Preiser, 1977; McGuigan, 1979, 
sowie Kazdin, 1980). 
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3.3.1 Konstanthaltung und Elimination 

Wird im konkreten Fall vermutet, daB ein bestimmter Faktor zu einer Beein- 
trachtigung der internen Validitat fuhrt, so kann man diese mogliche Storung 
dadurch ausschalten, daB man den betreffenden Faktor konstant halt, und 
zwar sowohl wahrend der gesamten Untersuchungszeit als auch - bei interin- 
dividueller Bedingungsvariation - zwischen den Behandlungsbedingungen 
(Zimny, 1961; Bredenkamp, 1969a). 

Die Konstanthaltung als Technik zur Erhohung der internen Validitat ist be- 
sonders nutzbringend bei Faktoren einsetzbar, die zu den vom Experimenta- 
tor hergestellten situativen Bedingungen gehoren und die nicht die unabhangi- 
ge Variable im engsten Sinne darstellen, also etwa bei der Instruktion, der 
Darbietungszeit und -form, dem Larmpegel, dem Versuchsleiter usw. Variie- 
ren diese Faktoren systematised zusammen mit den Modalitaten der UV, wird 
die interne Validitat beeintrachtigt, weil die Variation der Werte auf der AV 
nicht mehr ausschl ieBI i ch auf die systematische Variation der UV (und ggf. 
einen unsystematischen Fehleranteil) zuruckgefuhrt werden kann. Man kann 
im ubrigen diese Rah men bedingungen durch Automatisierung des Versuchs- 
ablaufes recht problemlos konstant halten, also etwa durch elektronische Zeit- 
steuerung, Instruktion vom Tonband etc. 

Die Elimination einer potentiellen Storbedingung kann als Spezialfall der Kon- 
stanthaltung angesehen werden. Sie ist etwa dann indiziert, wenn eine Kon- 
stanthaltung (etwa des AusmaBes und der Qualitat der sozialen Kontakte) 
nicht erreichbar ist. 

Wird eine Untersuchung mit Personen in deren naturlicher Umgebung durch- 
gefuhrt, gibt es eine Fulle von moglichen Storfaktoren. Ihre Konstanthaltung 
Oder Elimination ist in den meisten Fallen unmoglich. Damit ware aber auch 
eine strenge Prufung der Flypothese nicht moglich. Von daher empfiehlt es 
sich, Untersuchungen in streng kontrollierten Situationen durchzufuhren, also 
in einem gegen moglichst viele potentielle Storfaktoren abgeschirmten „Labo- 
ratorium". 

(DaB das ausschl ie(5l iche Experimentieren im psychologischen Labor die strenge Pru- 
fung einer Hypothese verhindern kann, wird spater in Zusammenhang mit der Situa- 
tionsvaliditat erortert.) 

Was dabei unter Abschirmung konkret zu verstehen ist, hangt vom Bereich ab, 
aus dem die untersuchte Flypothese stammt. So sind in wahrnehmungspsy- 
chologischen Experimenten in erster Linie auRere Sinnesreize (plotzliche Ge- 
rausche, Beleuchtungsschwankungen usw.) konstantzuhalten Oder zu elimi- 
nieren (z. B. durch einen schallisolierten Raum), in sozialpsychologischen Ex- 
perimenten mussen eher die sozialen Interaktionen mit anderen Versuchsbetei- 
ligten gleichformig gestaltet werden und Kontakte mit AuBenstehenden ver- 
hindert werden. 
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3.3.2 Randomisierung 

Durch Konstanthaltung Oder Elimination kann man nur solche potentiellen 
Storfaktoren kontrollieren, die bekannt und beobachtbar sind Oder die durch 
so grobe IsolierungsmaBnahmen wie die Durchfuhrung einer Untersuchung 
im Laboratorium ausgeschaltet werden konnen. AuBerdem ist die Konstant- 
haltung Oder Elimination eines Storfaktors relativ aufwendig, so daB solche 
MaBnahmen nur fur eine relativ geringe Anzahl potentieller Storfaktoren 
durchfuhrbar sind. Nun konnen sich die Personen, die bei einer interindividu- 
ellen Bedingungsvariation unter den verschiedenen Auspragungen der UV un- 
tersucht werden, aber hinsichtlich einer groBen und unbekannten Zahl indivi- 
dueller Merkmale unterscheiden. 

Es gibt nur einen Weg, diese moglichen Storfaktoren (IV) zu kontrollieren: Zu 
jeder Modal i tat der UV werden mehrere „Untersuchungseinheiten" (kurz: 
„Vpn" fur „Versuchspersonen") beobachtet, und Vpn und Modalitaten wer- 
den zufallig einander zugeordnet. Dieses Vorgehen bezeichnet man als Rando- 
misierung. 

Nur wenn eine Randomisierung durchgefuhrt wird, konnen Kausalhypothe- 
sen streng gepruft werden: Nach einer Zufallszuordnung von Vpn und Bedin- 
gungen gibt es keine plausible Begrundung fur Storungshypothesen, nach de- 
nen sich die unter den verschiedenen Bedingungen beobachteten Vpn hinsicht- 
lich eines ihrer Merkmale systematisch unterscheiden. Die Wahrscheinlich- 
keit, daft auf einer mit den Vpn zusammenhangenden Variablen zwischen den 
Behandlungsgruppen ein Unterschied von einer bestimmten MindestgroBe 
auftritt, ist namlich um so geringer, je groBer die Anzahl n der jedem Treat- 
ment zufallig zugeordneten Vpn ist. Zwischen den Behandlungsgruppen sind 
also auch nach einer Randomisierung systematische Unterschiede moglich; sie 
sind jedoch um so unwahrscheinlicher, je mehr Vpn verwendet werden.') 

Der Versuchsplan 2 wird mit Randomisierung zum weitverbreiteten Versuchs- 
plan mit einer Experimental- und einer Kontrollgruppe, der i.a. als Zufalls- 
gruppenversuchsplan bezeichnet wird: 

(Vpl. 4) R X, Y„ 

R X 2 Y i2 („R" bedeutet ..Randomisierung") 

Diesen Versuchsplan kann man auch in der folgenden Weise darstellen, die 
sich fur die weiteren Erorterungen als nutzlich erweisen wird (Vpl. 5): 



8 ) Diese zufallig moglichen Unterschiede werden bei der Versuchsauswertung uber 
Signifikanztests berucksichtigt (vgl. Teil 7). Wie die nach bestimmten Kriterien optima- 
le Anzahl der Vpn zu bestimmen ist, stellen wir im Teil 10 dar. 
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Dabei bezeichnen die Y^-Werte die GroBe der AV bei den verschiedenen Vpn. Aus 
dem Vpl. 5 wird ersichtlich, dal5 in der sog. „Kontrollgruppe" (X^ die Anzahl der Vpn 
gleich ri! und in der „Experimentalgruppe" (X 2 ) gleich n 2 ist, so dal$ also insgesamt nx + 
n 2 = N Vpn untersucht werden. 

Bei multifaktoriellen Experimenten werden die Vpn nach dem Prinzip der 
Randomisierung zufallig den moglichen Kombinationen von Modalitaten zu- 
gewiesen. 

Beispiel: In einem Experiment zur Prufung unserer WH„ konnte eine UV B vier Dis- 
sonanzstarken entsprechen (z.B. „fehlende" (Bi), „leichte" (Ba), „mittlere" (B 3 ), „star- 
ke" (B 4 ) Dissonanz), und diese konnten auf zwei verschiedene Arten erzeugt werden 
(z.B. „einstellungskontrare Information" (Ai), „forced compliance durch Rollenspiel" 
(Aa)). Den entstehenden acht Behandlungskombinationen werden dann zufallig jeweils 
n Vpn zugewiesen (siehe Vpl. 6). 
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Zur Notation: bezeichnet bei solchen Versuchsplanen den Wert der AV Y mit i = 

1 s, s' n; j = 1 I, I' J und k = 1 m, m’ K. Y s i m ist also der 

Wert der beliebig herausgegriffenden Vp s unter der beliebigen Bedingungskombi na- 
tion AiB m Oder (AB)„. 
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Noch ein Wort zur Definition der Untersuchungseinheiten (,,Vpn"). In der 
Regel sind das tatsachlich einzelne Personen (oder Tiere). Werden jedoch 
Merkmale ganzer sozialer Gruppen als AV untersucht, stellen diese Gruppen 
die Untersuchungseinheiten dar. Haufig bezieht sich die AV zwar auf einzelne 
Personen, diese konnen aber nicht zufallig den Modalitaten zugewiesen wer- 
den, weil sie nur in vorgegebenen Gruppen (z.B. Schulklassen) untersucht 
werden konnen. In diesem Fall besteht die einzige Moglichkeit zur Sicherung 
der internen Validitat darin, daft man moglichst viele dieser Gruppen zufallig 
den Treatmentkombinationen zuordnet - vgl. hierzu insbesondere Glass & 
Stanley (1970, 501-509) sowie Abschnitt 8.4.5. 

Die praktische Durchfuhrung einer Zufallszuordnung erfolgt am besten mit 
Hilfe von Zufallszahlen. Entsprechende Tabellen finden sich z. B. in Pearson 
& Hartley (1954, 1972), Fisher & Yates (1963), Edwards (1971), Kreyszig 
(1973) und Kriz (1978). 

Naturlich muB man das Ergebnis einer Zufallszuordnung nicht vorbehaltlos akzeptie- 
ren, wenn sich eine offensi chtlich „unwahrscheinliche" Gruppeneinteilung ergeben hat, 
die die interne Validitat storen konnte; dies ist bspw. der Fall, wenn alle mannlichen 
Vpn der Experimental- und alle weiblichen Vpn der Kontrollgruppe zugewiesen wor- 
den sind. Nach Moglichkeit ist unter diesen Umstanden die Randomisierung zu wie- 
derholen (Mosteller, 1968, 115 f.). 

Damit durch Randomisierung die Storfaktoren (IV) ausgeschaltet werden, 
mussen die dadurch entstandenen Gruppen naturlich bis zur Messung der AV 
am Ende der Untersuchung erhalten bleiben. Bei langerdauernden Untersu- 
chungen ist das nicht immer der Fall, denn hier kommt es haufiger vor, daB 
Personen im Laufe der Untersuchung ausscheiden. Hangt diese sog. „experi- 
mentelle Mortalitat" mit der UV zusammen, beeintrachtigt sie die interne 
Validitat (Cook & Campbell, 1979). Dies muB immer vermutet werden, wenn 
eine Behandlungsbedingung fur die Probanden unangenehmer ist als eine an- 
dere. 

Diese Storung der experimentellen Validitat ist bei der Interpretation von 
Untersuchungsergebnissen stets zu berucksichtigen, und zwar unabhangig da- 
von, welches der speziellen statistischen Auswertungsverfahren (siehe Abschn. 
10.4.2) gewahlt wird. 

Bisher haben wir von der Kontrolle individueller Merkmalsunterschiede als 
Storfaktoren (IV) durch zufallige Zuordnung der Personen (oder anderer Un- 
tersuchungseinheiten) zu den Behandlungsgruppen gesprochen. Das Rando- 
misierungsprinzip kann daruber hinaus auch zur Kontrolle anderer Storfakto- 
ren (IV) dienen. Hier nur einige Beispiele fur diese sehr wichtige Vorgehens- 
weise: 

Kann die Untersuchung nicht fur alle Probanden zum gleichen Zeitpunkt 

durchgefuhrt werden, konnen Unterschiede hinsichtlich der Tageszeit (vor 
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allem bei allgemeinpsychologischen Untersuchungen) und/ Oder des Da- 
tums der Untersuchung (vor allem in der Sozialpsychologie) Storfaktoren 
(IV) darstellen. Diese konnen dadurch ausgeschaltet werden, daB man die 
zur Verfugung stehenden Untersuchungstermine zufallig den experimen- 
tellen Bedingungen zuordnet. Dies erfolgt zum Beispiel, indem man jede 
ins Laboratorium kommende Versuchsperson zufallig einer Behandlungs- 
gruppe zuweist. 

- Wird die Untersuchung mit verschiedenen Versuchsleitern, an unter- 
schiedlichen Orten, mit verschiedenen Apparaten usw. durchgefuhrt, so 
sind die Elemente der jeweils zur Verfugung stehenden Menge zufallig den 
Untersuchungseinheiten Oder direkt den Behandlungsgruppen zuzuord- 
nen, damit sie nicht zu Storfaktoren (IV) werden konnen. 



3.3.3 Einfuhrung eines K on trol Ifaktors 

Eine Verallgemeinerung der Konstanthaltung einer potentiellen Storbedingung 
ist ihre systematische Variation (Bredenkamp, 1969 a). Statt beispielsweise die 
Darbietungszeit der Reize fur alle Probanden konstantzuhalten, kann man 
verschiedene Darbietungszeiten wahlen und diese Variable als sog. „Kontroll- 
faktor" (KF) mit Q Modalitaten in das Design einfugen - siehe Vpl. 7. 
Abgesehen vom hohen praktischen Aufwand lassen sich naturlich auch gleich- 
zeitig mehrere Kontrollfaktoren einfuhren, auch zusatzlich zu mehreren be- 
reits vorhandenen experimentellen Faktoren (unabhangige Variablen). Auf je- 
den Fall werden die Probanden wieder den moglichen Behandlungskombina- 
tionen zufallig zugewiesen. In jeder Zelle des Versuchsplanes 7 ergeben sich 
dann n Werte auf der AV Y, namlich Y iqmi . . ., Y^, . . ., Y nqm , wobei gilt: q = 
1, . . ., r, . . ., Q fur den Kontrollfaktor KF und k = 1, . . ., m, . . ., K fur den 
experimentellen Faktor B. 



(Vpl. 7) R — UV B (experimenteller Faktor) 
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Der Vorteil dieses Vorgehens besteht darin, daB man prufen kann, inwieweit 
der EinfluB der UV auf die AV vom jeweiligen Niveau des Kontrollfaktors 
abhangt (siehe dazu Abschn. 4.3 und 8.5). Zur Kontrolle der Storfaktoren der 
internen Validitat ist die explizite Berucksichtigung des Kontrollfaktors aller- 
dings nicht notwendig. Dazu genugt - um im Beispiel zu bleiben - die 
Konstanthaltung der Darbietungszeit Oder ihre zufallige Variation uber alle 
Modal itaten der interessierenden UV. 

Hier sei schon darauf hingewiesen, daB andere Arten von Kontrollfaktoren 
eingefuhrt werden konnen, um die Populations- Oder Situationsvaliditat Oder 
die statistische Validitat zu erhohen (s. Abschn. 4.3 und 8.4.1). 



3.4 Zur Kontrolle der Storfaktoren (IV) bei intraindividueller 
Bedingungsvariation (Meftwiederholung) 

Die Ausfuhrungen im Abschnitt 3.3.1 uber die Konstanthaltung als Methode 
zur Kontrolle von Storfaktoren (IV) konnen unmittelbar auf Experimente mit 
wiederholten Messungen ubertragen werden. Wir wollen uns hier nur mit den 
fur wiederholte Messungen spezifischen Storfaktoren (den sog. Sequenzeffek- 
ten) beschaftigen. Diese lassen sich nur kontrollieren, indem man die Abfolge 
der Behandlungen und Messungen variiert. Da bei einer intraindividuellen 
Variation dieser Reihenfolge (etwa nach der Spiegelbildmethode, siehe Selg, 
1975) jede Person unter jeder Behandlungsbedingung mindestens zweimal be- 
obachtet werden muB, konnen dabei leicht zusatzliche Sequenzeffekte entste- 
hen. Deshalb kommt nur eine interindividuelle Variation der Reihenfolgen in 
Frage. Dafur gibt es drei Gruppen von Techniken (nach Zimny, 1961, 
158-186; Selg, 1975, 50-55; Bredenkamp, 1969a): 



(1) Zufallige Reihenfolgen 

Man bestimmt fur jede Untersuchungseinheit die Reihenfolge der Bedingun- 
gen zufallsmaBig. Dies geschieht am leichtesten uber Tabellen mit Zufallsrei- 
henfolgen einer gegebenen Menge von Zahlen (am ausfuhrlichsten bei Moses 
& Oakford, 1963; auBerdem bei Cochran & Cox, 1957; Fisher & Yates, 1963; 
Underwood & Shaughnessy, 1975; John & Quenouille, 1977). Dann kann 
man zwar davon ausgehen, daB man mit zunehmender Zahl der Untersu- 
chungseinheiten der angestrebten Kontrolle der Sequenzeffekte beliebig nahe 
kommt; besonders bei wenigen Personen konnen sich aber doch noch be- 
trachtliche Abweichungen ergeben. 
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(2) Vollstandiges Ausbalancieren 

Bei K Modalitaten der UV sind K! = 1 -2-3-. . .-K verschiedene Reihenfolgen 
moglich. Wird jeder dieser Reihenfolgen eine gleich groBe Zahl von Versuchs- 
personen zufallig zugeordnet, so sind alle Sequenzeffekte (auch die hoheren) 
kontrolliert. 



(3) Unvollstandiges Ausbalancieren 

Bei K Modalitaten werden K verschiedene Reihenfolgen so gewahlt, daB jede 
Bedingung gleich haufig an jeder Stelle steht. Schreibt man die K Reihenfolgen 
untereinander, nennt man die entstehende Anordnung ein Jateinisches Qua- 
drat" (Lindquist, 1953). 1st K eine gerade Zahl, konnen die Reihenfolgen 
daruber hinaus so gewahlt werden, daft jede Bedingung gleich haufig vor und 
hinter jeder anderen Bedingung steht. 1st K+l eine Primzahl, lassen sich 
Quadrate konstruieren, die auch alle Sequenzeffekte hoherer Ordnung kon- 
trollieren (siehe dazu Cochran & Cox, 1957, 133-135; Cox, 1958, 272-274; 
Alimena, 1962; Edwards, 1971, 227-228; Raghavarao, 1971; Namboodiri, 
1972; John & Quenouille, 1977, 196-214; zu den mathematischen Grundla- 
gen siehe Denes & Keedwell, 1974). 

Allgemein konnen lateinische Quadrate stets verwendet werden, um ausgewogene 
Kombinationen dreier Faktoren mit der gleichen Anzahl von Modalitaten zu erreichen, 
wenn diese Auspragungen aus irgendeinem Grunde nicht vollstandig kombiniert („ge- 
kreuzt") werden konnen (siehe Myers, 1972, 259-281; Winer, 1971, 685-751). 

Welche der drei Strategien zur Kontrolle der Sequenzeffekte sol Ite man an- 
wenden? 

Das unvollstandige Ausbalancieren stellt die am wenigsten befriedigende Kon- 
trol Itechni k dar. Allerdings gibt es zu ihr dann keine Alternative, wenn die 
Anzahl der Untersuchungseinheiten relativ klein ist Oder wenn aus technischen 
Grunden nur relativ wenige verschiedene Reihenfolgen realisiert werden 
konnen. 

Das vollstandige Ausbalancieren ist nur dann moglich, wenn die Anzahl N 
aller Untersuchungseinheiten gleich K! Oder einem ganzzahligen Vielfachen 
davon ist. Da die StichprobengroBe N jedoch aufgrund ganz anderer Gesichts- 
punkte festgelegt werden sol Ite (siehe Teil 10), durfte sie nur in Ausnahmefal- 
len gleich c-K! sein. 

Bei der Planung von Untersuchungen mit wiederholten Messungen sol Ite man 
daher in der Regel die Reihenfolgen der Behandlungen nach dem Zufallsprin- 
zip bestimmen. 
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Die genannten Kontrolltechniken sind allerdings nur mit einer sehr wesentli- 
chen Einschrankung wirksam: Durch Variation der Reihenfolgen konnen Se- 
quenzeffekte nur dann ausgeglichen werden, wenn sie in dem Sinne symme- 
trisch sind, daB das AusmaB der von jeder Behandlungsbedingung ausgehen- 
den Sequenzeffekte gleich dem AusmaB der von anderen auf sie entfallenden 
Effekte ist (vgl. Zimny, 1961, 165). In vielen Kontexten ist es aber z.B. durch- 
aus wahrscheinlich, daB eine der Behandlungen besonders stark fur andere 
Behandlungen sensibilisiert Oder daB unter einer Behandlung der Ubungsef- 
fekt besonders ausgepragt ist. Diesen Ubungseffekten versucht man oft durch 
eine ausgedehnte pra-experi mentel I e Ubungsphase entgegenzuwirken, durch 
die erreicht werden soil, daB wahrend des Experiments kaum noch Ubungs- 
fortschritte eintreten. Daneben wird die Gefahr von Ubertragungseffekten 
naturlich im allgemeinen um so geringer, je groBer die zeitliche Distanz der 
verschiedenen Behandlungen ist (etwa im Drogenbei spiel aus Abschnitt 3.2). 
Auch ist es zur Vermeidung von Ubertragungs- und Sensibilisierungseffekten 
gerade bei MeBwiederholungen besonders empfehlenswert, den Vpn mog- 
lichst wenig Hinweise auf den Zweck der Untersuchung zu geben (vgl. 
Abschn. 2.5), z.B. indem man in unsystematischer Weise auch andere als die 
interessierenden unabhangigen Variablen verandert (vgl. Greenwald, 1976, 
317). 



3.5 Versuchsplane mit interi ndi viduel ler Bedingungsvariation 
und Vortest 



Mochte man auf die Vorteile einer i nteri nd i viduel I en Bedingungsvariation nicht ver- 
zichten, besteht aber aus irgendeinem Grund ein Interesse an den Werten der Proban- 
den auf der AV vor der experi mentel I en Behandlung, kann man die Versuchsplane 4 
und 2 wie in Vpl. 8 zu einem Kontrollgruppenexperiment mit MeBwiederholung kom- 
binieren (vgl. Campbell & Stanley, 1963). 



(Vpl. 8) 



R Y; 0 X, Y ;i 

R Y i0 X 2 Y i2 



Nachteilig bei diesem Versuchsplan ist, daB die Hypothese ausschlieBlich an Personen 
gepruft wird, bei denen in den sog. Vortests die AV bereits einmal vor der experimen- 
tellen Behandlung erhoben wurde. Dies setzt die Populationsvaliditat des Experiments 
herab (siehe Abschn. 4.1). Falls man an Vortestwerten interessiert ist, sol Ite man des- 
halb den Versuchsplan 8 mit dem Versuchsplan 4 zum sog. „.Solomon-Vier-Gruppen- 
Design" (s. Vpl. 9) kombinieren (Solomon, 1949; Campbell & Stanley, 1963; Breden- 
kamp, 1969a; Huck & Sandler, 1973; Oliver & Berger, 1980). Bei diesem Versuchsplan 
laBt sich auch prufen, inwieweit dieTatsache, daB ein Vortest durchgefuhrt worden ist, 
einen EinfluB auf die Beziehung zwischen der UV und der AV hat (vgl. Abschn. 8.5). 
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3.6 Zur Definition des Experiments und anderer 
U ntersuchungsmethoden 



Wir hatten im Abschnitt 3.3 gesehen, daR ohne eine zufallige Zuordnung von 
Untersuchungseinheiten (Vpn) und experimentellen Bedingungen stets mit ei- 
ner Storung der internen Validitat gerechnet werden muR. Ohne Randomisie- 
rung konnen also Hypothesen uber kausale Beziehungen zwischen Variablen 
nicht streng gepruft werden. Deshalb stellt die Randomisierung die wesentli- 
che Bedingung dafur dar, daR eine Untersuchung als Experiment bezeichnet 
werden kann (Bredenkamp, 1969a, 1980; Carlsmith, Ellsworth & Aronson, 
1976; s.a. unsere unten gegebene Definition). 

Wird ein Experiment nicht unter kunstlichen („Labor-")Bedingungen durch- 
gefuhrt, sondern in „naturlichen" Situationen, spricht man von einem „Feldex- 
periment" (s. Bredenkamp, 1969a; Redding, 1970; French, 1972; Kerlinger, 
1979; Patry, 1979, 1982; Westmeyer, 1982). 

Werden aus irgendeinem Grunde die Vpn nicht zufallig den Modalitaten der 
UV zugeordnet, sprechen Campbell & Stanley (1963) von einem „Q u asi- 
Experiment". Bis zu einem gewissen Grade kann man sich auch bei diesem 
dem Ideal einer strengen Prufung annahern, und zwar indem man fur mog- 
lichst viele relevante Storungshypothesen (IV) nachzuweisen versucht, daR fur 
sie in der konkreten Untersuchungssituation keine entsprechenden Anfangs- 
bedingungen vorliegen (Naheres siehe Cook & Campbell, 1976, 1979). 

Alle Untersuchungen, die weder Experimente noch Quasi-Experimente sind, 
werden als , ,K orrel ati on sstu di en " bezeichnet. Sie konnen zwar zur Prufung 
von Theorien noch insofern eingesetzt werden, als aus diesen ja stets auch 
Vorhersagen uber korrelative Zusammenhange ableitbar sind, diese Korrela- 
tionen lassen sich in der Regel aber auch durch bewahrte Storungshypothesen 
vorhersagen, so daR keine strenge Prufung moglich ist. Annaherungen an 
dieses Ziel sind al lenfal Is im Rahmen der Prufung kausalanalytischer Modelle 
moglich (s. Namboodiri, Carter & Blalock, 1975; Hummed & Ziegler, 1976; 
Opp & Schmidt, 1976; Kenny, 1979). 

Genaugenommen konnen wir eine Unterscheidung zwischen Experimenten, 
Quasi -Experimenten und Korrelationsstudien gar nicht fur Untersuchungen 
als Ganzes treffen, sondern nur fur einzelne unabhangige Variablen. Haufig 
finden sich namlich innerhalb einer Untersuchung neben experimentellen Va- 
riablen im strengen Sinne, bei denen die Vpn zufallig den Modalitaten(kombi- 
nationen) zugeordnet werden, andere UVn, deren Auspragungen bei den ein- 
zelnen Vpn gar nicht zufallig festgelegt werden konnen, sondern anderweitig 
„vorgegeben" sind (z. B. Geschlecht, Intelligenzquotient, Art der psychischen 
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Storung). 9 ) Kausalaussagen sind in bezug auf derartige Variablen naturlich in 
aller Regel nicht moglich. 

Auf der Grundlage dieser Uberlegungen gelangen wir zu folgender Definition 
der Experiments: 

Eine Untersuchung ist bezuglich einer unabhangigen Variablen X ein Experi- 
ment, wenn die gleichen Sachverhalte unter verschiedenen Bedingungen X,, 
. X K systematised beobachtet werden und wenn U ntersuchungseinheiten und 
Bedingungen einander zu fa! I i g zugeordnet werden bzw. wenn die Reihenfol- 
gen zufallig bestimmt werden, in denen die U ntersuchungseinheiten unter die- 
sen Bedingungen beobachtet werden. 

Wir konnen damit - abweichend von Wundt (1913) - auch Untersuchungen 
als Experimente auffassen, bei denen die Behandlungsbedingungen nicht vollig 
will kurlich hergestellt werden (konnen) und/ Oder bei denen die Bedingungen 
von anderen Instanzen als dem Experi mentator variiert werden und/ Oder die 
nicht beliebig wiederholbar sind. Die entscheidende Frage fur die Abgrenzung 
des Experiments von den anderen angesprochenen Untersuchungsmethoden 
ist vielmehr, ob eine Randomisierung erfolgt, denn diese stellt eine notwendige 
Voraussetzung fur die strenge Prufung einer Kausalhypothese dar. 



4. Populations- und S i tu ati on sval i di tat 10 ) 

4.1 Populationsvaliditat (PV) 

Unsere Beispielhypothese WH U ist in mehrfacher Hinsicht typisch fur psycho- 
logische Hypothesen. Uns interessieren hier zwei Punkte: 

1. Die in der Hypothese vorkommenden theoretischen Begriffe bezeichnen 
Eigenschaften Oder Merkmale, die einzelnen Personen zukommen. 

2. Die in der Hypothese getroffene Aussage soil fur alle Personen einer unend- 
lichen Population gultig sein. 

Beginnen wir bei der Erlauterung dieser beiden Punkte mit dem letzten! Die 
kognitive Dissonanztheorie enthalt keine Einschrankungen ihres Geltungsbe- 



9 ) Dazu gehoren auch Variablen, die sich auf etwas Vergangenes beziehen (z.B. fruh- 
kindliche Erfahrungen, Seminarbesuch im vergangenen Semester). Werden solche Va- 
riablen mit gegenwartig beobachtbaren in Beziehung gesetzt, spricht man von „ex-post- 
facto-U ntersuchungen" (s. Meehl, 1970 und Kerlinger, 1979, 579-597). 

10 ) Wir vermeiden es, Populations- und Situationsvaliditat zusammenfassend als „ex- 
terne Validitat" zu bezeichnen (Campbell & Stanley, 1963; Bracht & Glass, 1968), weil 
gerade der Begriff der externen Validitat in einer ausgesprochen induktivistischen Weise 
gebraucht wird (vgl. Gadenne 1976, und Abschn. 1.3). 
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reichs, d.h. wir mussen davon ausgehen, daB sie den Anspruch erhebt, fur alle 
Personen gultig zu sein. Die aus dieser Theorie von unserem imaginaren For- 
schungsteam abgeleitete Hypothese WH U beansprucht zwar nicht unbedingt 
Allgemeingultigkeit fur alle Menschen, wohl aber zumindest fur alle Burger 
eines bestimmten Staates. Dabei soil sie nicht nur fur die endliche Menge der 
zu einem ganz bestimmten Zeitpunkt lebenden Burger gelten, sondern auch 
fur die mehr Oder minder spater existierenden, durch Geburt und Tod, Ein- 
wanderung und Fortzug veranderten Populationen. Der Geltungsbereich der 
Hypothese ist also eine unendliche Menge von Individuen. In der Terminolo- 
gie der Logik bezeichnete man solche Aussagen als „unbegrenzte Allsatze". 
Die meisten psychologischen Hypothesen und Gesetze entsprechen derartigen 
unbegrenzten Allsatzen. Dies gilt auch fur solche Hypothesen, die determini- 
stische Aussagen der Form „Wenn . . ., dann . . vermeiden und statt des- 
sen nur Wahrscheinlichkeitsaussagen beinhalten. 

Ein Beispiel hierfur ist die folgende Hypothese WH Z : „Wenn zwischen der Einstellung 
einer Person zu einem bestimmten Objekt und einem anderen kognitiven Element eine 
Dissonanz besteht, dann verandert sich mit einer Wahrscheinlichkeit q die Einstellung 
dahingehend, dal$ diese Dissonanz vermindert wird", Oder kurz und formal ausge- 
druckt: „Prob(dE|D) = q". 

Die Formulierung von Hypothesen als unbegrenzte Allsatze hat einen ent- 
scheidenden Vorteil: Sollte die Hypothese in strengen Prufversuchen nicht 
falsifiziert werden und somit als gut bewahrte Gesetzesaussage gelten, kann sie 
zur wissenschaftlichen Erklarung einzelner Sachverhalte herangezogen wer- 
den. Nach Hempel & Oppenheim (1948; vgl. auch Hempel, 1965; Stegmuller, 
1974a; Groeben & Westmeyer, 1975; Kuttner, 1979; zur Kritik siehe Suppe, 
1977b, 624-632) besteht namlich die wissenschaftliche Erklarung in der logi- 
schen Ableitung der Aussage uber den zu erklarenden Sachverhalt (z.B. per- 
son s hat ihre Einstellung zum Positiven hin verandert.") aus einem gut be- 
wahrten Gesetz (im Beispiel ist dies unsere WH U ) und einigen Anfangsbedin- 
gungen (im Beispiel u.a. „Bei Person s ist Dissonanz erzeugt worden."). Eine 
derartige Erklarung kann aber nur dann adaquat sein, wenn das darin verwen- 
dete Gesetz eine Aussage ist, die sich auf unendlich viele Anwendungsfalle 
(d.h. in der Regel: Personen) bezieht (Stegmuller, 1974a). Andernfalls konnte 
unser exemplarischer Sachverhalt namlich aus einer Aussage wie „A lie Perso- 
nen in diesem Raum haben ihre Einstellung zum Positiven hin geandert" abge- 
leitet werden, womit sicherlich keine befriedigende wissenschaftliche Erkla- 
rung gegeben ware. 

Als psychologische Hypothesen Oder Gesetze enthalten diese unbegrenzten 
Allsatze nun Aussagen uber einzelne Individuen (im Gegensatz etwa zu sozio- 
logischen Hypothesen, in denen zumeist Merkmale von Personengruppen be- 
trachtet werden). Trotzdem konnen diese Hypothesen nicht fur jede einzelne 
Person falsifiziert werden, da Storungen der internen Validitat in aller Regel 
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nicht mit genugender Sicherheit ausgeschlossen werden konnen, wenn wir 
einzelne Personen betrachten, sondern nur wenn mehrere Personen zufallig 
unterschiedlichen experimentellen Bedingungen zugeordnet werden (s. 
Abschn. 3.3.2). Die moglichst strenge Prufung einer Hypothese muR also 
normalerweise an einer Gruppe von Personen erfolgen. 

Gehen wir jetzt wieder vom Kriterium einer strengen Prufung der wissen- 
schaftlichen Hypothese aus! Danach muR eine Untersuchung so beschaffen 
sein, daR die Wahrscheinlichkeit eines hypothesenkontraren Ergebnisses hoch 
ist, wenn die Hypothese falsch ist. Im Zusammenhang mit der untersuchten 
Personengruppe kann das Ziel einer strengen Prufung in zwei Fallen gefahrdet 
sein: Erstens konnen keine hypothesenkontraren Ergebnisse eintreten, wenn 
die in der Untersuchung verwendete Personengruppe gar keine Stichprobe aus 
der Population darstellt, fur die die Hypothese gelten soil (vgl. Bredenkamp, 
1979). Wir wollen dies als Storung der Populationsvaliditat erster Art (PV,) 
bezeichnen. Sie liegt z.B. dann vor, wenn eine humanpsychologische Hypo- 
these an Tieren Oder eine fur Schizophrene Gultigkeit beanspruchende Aussa- 
ge an „Normalen" uberpruft wird.") Zweitens wird eine Untersuchung in 
aller Regel nur an einer bestimmten Untermenge der Personen (oder anderer 
Untersuchungseinheiten) durchgefuhrt, fur die die Hypothese gelten soil. Eine 
Storung der Populationsvaliditat zweiter Art (PV 2 ) liegt dann vor, falls es eine 
bewahrte Storungshypothese HS, gibt, nach der die Hypothese WH U zwar fur 
die Subpopulation gilt, aus der die untersuchten Personen stammen, fur andere 
Untermengen des beanspruchten Geltungsbereiches aber nicht. Dementspre- 
chend ist jede Variable, die Unterpopulationen, fur die die zu prufende Hypo- 
these gilt, von solchen trennt, fur die sie nicht gilt, ein moglicher Storfaktor 
der Populationsvaliditat zweiter Art (vgl. Gadenne, 1976). 

Beispiele: Die Gultigkeit einer wissenschaftlichen Hypothese kann beschrankt sein auf 
Subpopulationen von Freiwilligen (Rosenthal & Rosnow, 1969b), von Probanden, die 
mit psychologischen Experimenten vertraut sind, von Probanden, die motiviert genug 
sind, ein langdauerndes Experiment durchzuhalten, von Personen mit hoher Bewer- 
tungsangst (Weber & Cook, 1972), von Arbeitern eines bestimmten Betriebes, von 
Personen, die durch Messung der AV vor der Behandlung sensi bilisiert worden sind 
(Lana, 1969) usw. In all diesen Fallen ist die PV gestort, wenn eine Untersuchung nur 
mit Personen aus der jeweiligen Unterpopulation durchgefuhrt wird. 

Zusammenfassend konnen wir also formu I i eren : Eine Untersuchung zur Pru- 
fung einer Kausalhypothese ist um so strenger, je weniger sie sich auf Proban- 
den aus bestimmten Untermengen der Population beschrankt, fur die die Hy- 
pothese gelten soli. 



n ) Oft sind U ntersuchungen an Personen aus dem Gultigkeitsbereich der Hypothese 
aus technischen Oder ethischen Grunden gar nicht durchfuhrbar - man denke nur an 
die Erprobung neuer Medikamente. Werden in einem solchen Fall Here als Modelle 
menschlicher Organismen benutzt, so kann in diesen U ntersuchungen die hochste zu 
diesem Zeitpunkt realisierbare Populationsvaliditat gegeben sein. 
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Die untersuchten Probanden brauchen aber keine Zufallsstichprobe aus ir- 
gendeiner (Sub-)Population zu sein, denn jede Kausalhypothese kann (weil sie 
sich - wie begrundet - notwendigerweise auf eine unendliche Population 
von Anwendungsfallen bezieht) an beliebigen Teilgruppen dieser Population 
falsifiziert werden (Holzkamp, 1964; Bredenkamp, 1972; Gadenne, 1976; s.a. 
Abschn. 8.2.6). 



4.2 Situationsval iditat (SV) 

Bei der Formulierung wissenschaftlicher Hypothesen und Theorien sol Ite stets 
angegeben werden, fur welche raum-zeitlichen Bedingungskonstellationen 
(kurz: fur welche Situationen) sie gultig sein sollen (Westmeyer, 1982). Dieser 
fur eine Theorie beanspruchte Geltungsbereich wird meist aus einer sehr gro- 
Ren, in der Regel sogar unendlichen Menge von Situationen bestehen. Im 
Zusammenhang mit der bei einer empirischen Prufung einer Theorie vorlie- 
genden Situation konnen wir zwei Falle unterscheiden, in denen das Ziel einer 
strengen Prufung gefahrdet ist: erstens wenn die Hypothese Oder Theorie gar 
nicht fur die Situation gelten soil, in der der Prufversuch durchgefuhrt wird 
(Storung der SV erster Art); zweitens wenn die Vermutung berechtigt ist, daft 
die zu prufende Hypothese zwar unter den gegebenen Umstanden erfullt ist, 
nicht aber unter (einigen Oder vielen) anderen Kombinationen von situationa- 
len Bedingungen, fur die ihre Gultigkeit ebenfalls beansprucht wird (Storung 
der SV zweiter Art). Entsprechend der Definition von Storfaktoren der Popu- 
lationsval iditat wollen wir eine Variable als Storfaktor der Situationsvaliditat 
- Storfaktor (SV) - bezeichnen, wenn sie nach einer bewahrten Storungshy- 
pothese Situationen definiert, in denen die zu prufende Hypothese nicht gilt. 

Storfaktoren der Situationsvaliditat konnen von sehr unterschiedlicher Art sein. So mag 
eine Hypothese WH V nur gultig sein, wenn den Probanden bewuKt ist, daK sie an einer 
Untersuchung teilnehmen (Hawthorne- Oder Placebo-Effekt, vgl. auch den von Klauer 
(1973, 558) beschriebenen „Novitatseffekt" in der padagogischen Forschung), wenn die 
abhangige Variable auch bereits vor der Behandlung gemessen wurde (Vortest-Sensiti- 
vierung), wenn die AV sofort nach der Behandlung erfaKt wird (mangelndes Uberdau- 
ern des Effekts), wenn die Prufung durch Versuchsleiter mit bestimmten Eigenschaften 
und Verhaltensweisen, in Raumen eines Forschungsinstituts, unter den Bedingungen 
eines Laborexperiments, unter Verwendung ganz bestimmter Apparaturen, bei einer 
bestimmten Dauer der experimentellen Behandlung, zu einer bestimmten Tageszeit, 
zeitlich kurz nach einer bestimmten Fernsehsendung usw. stattfindet (vgl. Bracht& 
Glass, 1968). Solche und viele ahnliche Faktoren konnen die Validitat einer Untersu- 
chung einschranken. 

Daraus ergibt sich allgemein: Eine Untersuchung zur Prufung einer Kausalhy- 
pothese ist um so strenger, je weniger sie sich auf ganz bestimmte zeitliche, 
raumliche und situationale Umstande aus dem Geltungsbereich der Hypothese 
beschrankt. 
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UmfaGt der Geltungsbereich einer Hypothese nicht nur Laborsituationen, 
mussen im Interesse einer moglichst strengen Prufung dieser Hypothese also 
auch Feldexperimente durchgefuhrt werden (vgl. Abschn. 3.6 und 5). 



4.3 Zur Kontrolle der Storfaktoren (PV und SV) 

Liegt eine Vermutung daruber vor, daft eine Variable V ein Storfaktor der 
Populations- Oder Situationsvaliditat ist, kann man dies stets prufen, indem 
man die Untersuchung unter mindestens zwei Auspragungen dieser Variablen 
durchfuhrt, diese Variable also als Kontrollfaktor einfuhrt (vgl. Abschn. 
3.3.3). Betrachten wir dazu ein Beispiel! In einem Experiment zur Prufung 
unserer Hypothese WH U wird die experiments I e Bedingung „keine Disso- 
nanz" (A,) der Bedingung „Dissonanz" (A 2 ) gegenubergestellt, und es interes- 
siert uns, inwieweit die Zugehorigkeit zu einer bestimmten Berufsgruppe 
(Faktor B) die Resultate beeinfluBt. Faktor B umfasse drei Modalitaten: „Stu- 
dent" (Bi), „Beamter" (B 2 ) und „freier Beruf" (B 3 ). Es seien nun unter den 6 
Bedingungskombinationen folgende M ittelwerte der AV aufgetreten (je hoher 
die Werte sind, desto positiver ist die Einstellung): 

Tabelle 4.1: 





B, 


b 2 


b 3 


A, 


0 


5 


10 


-A-2 


2 


4 


6 



Offensichtlich ist die Vorhersage der Hypothese WH U bei Studenten eingetre- 
ten, jedoch nicht bei Beamten und Freiberuflern. Nach unserer Definition ist 
B also ein Storfaktor der Populationsvaliditat. In statistischer Terminologie 
spricht man davon, dal$ eine „disordinale I nteraktion" bezuglich des Faktors A 
vorliegt (siehe im einzelnen Abschn. 8.5). 

Dies gilt allgemein: Eine Variable ist genau dann ein Storfaktor der Popula- 
tions- Oder Situationsvaliditat, wenn bezuglich des Behandlungsfaktors eine 
disordinale I nteraktion besteht. Wird eine derartige Wechselwirkung wieder- 
holt festgestellt, sol Ite zumindest der Geltungsbereich der Hypothese einge- 
schrankt werden. Wie man feststellen kann, ob zwei Variablen interagieren 
und ob ggf. diese Interaktion disordinal ist, werden wir im Abschnitt 8.5 noch 
ausfuhrlicher besprechen. 

Innerhalb einer Untersuchung wird sich stets nur eine sehr kleine Zahl von 
potentiellen Storfaktoren der SV Oder PV auf diese Weise untersuchen lassen. 
Zur Klarung der Frage, in welchem AusmaG die Strenge der Prufung einer 
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Hypothese durch solche Faktoren eingeschrankt ist, muB man sich deshalb 
zum einen auf entsprechende Ergebnisse aus Untersuch ungen zur Prufung 
anderer Hypothesen stutzen, zum anderen kann eine einigermaBen fundierte 
Beurteilung der Gultigkeit einer Kausal hypothese nur erfolgen, nachdem sie 
durch mehrere Untersuchungen in verschiedenen Subpopulationen und Situa- 
tionen uberpruft wurde. Da aus den unendlichen Mengen der Personen und 
Situationen, fur die die Hypothese gelten soil, keine reprasentativen Stichpro- 
ben zu ziehen sind, wird das Ziel einer strengen Prufung der Hypothese durch 
ein Forschungsprogramm aus mehreren Untersuchungen am besten erreicht, 
wenn aus dem Geltungsbereich Personengruppen und Situationen bewuBt so 
ausgewahlt werden, daB sie moglichst verschiedenartig sind (vgl. Cook & 
Campbell, 1979 , 74 - 80 ; s.a. Dipboye & Flanagan, 1979) und daB in anderen 
Kontexten bewahrte Oder (aus theoretischen Uberlegungen) besonders plausi- 
ble Storungshypothesen direkt gepruft werden konnen. 



5. Beziehungen zwischen den V al i di tatsarten 

Zwischen interner Validitat auf der einen und Populations- und Situationsvali- 
ditat auf der anderen Seite besteht im allgemeinen eine gegenlaufige Beziehung. 
Zunachst einmal sind Storungen der SV und PV haufig bedingt durch MaBnah- 
men zur Kontrolle moglicher Storfaktoren der internen Validitat. Ein Beispiel 
moge dies verdeutlichen: Die IV ist gefahrdet, wenn jede Experi mental gruppe 
einen anderen Versuchsleiter hat. Diese Gefahr kann z.B. dadurch ausgeraumt 
werden, daB man fur al le Gruppen das Experiment durch den gleichen VI 
durchfuhren laBt, die Variable ,,Versuchsleiter" also konstant halt (vgl. 
Abschn. 3.3.1). Dann besteht aber die Gefahr, daB das erhaltene Ergebnis 
spezifisch ist fur Experi mente unter Leitung dieser Person und daB sich bei 
anderen VI mit anderen Eigenschaften andere Resultate eingestellt hatten. 
Durch Konstanthaltung von Bedingungen kann also die Situationsvaliditat 
eingeschrankt werden. Umgekehrt wird durch eine Erhohung der SV oft die 
interne Validitat herabgesetzt. So ist unter naturlich auftretenden situationalen 
Bedingungen die Konstanthaltung potentieller Storfaktoren (IV) Oder die Ran- 
domisierung der Untersuchungseinheiten, -zeitpunkte und -raume meist we- 
sentlich schwieriger. Oft sind diese MaBnahmen gar nicht durchzufuhren, so 
daB allenfalls Quasi-Experi mente moglich sind. Wegen dieser Gegenlaufigkeit 
der betrachteten Validitatsaspekte sol Ite eine Entscheidung uber eine Hypo- 
these, deren Geltungsbereich auch „naturliche" Situationen umfaBt, erst auf- 
grund der Ergebnisse von mehreren Untersuchungen Verschiedenster Art ge- 
troffen werden. 

LaBt sich eine H ypothese jedoch tatsachlich nur in Laborsituationen mit einer 
ausreichenden internen Validitat uberprufen, muB ihr Geltungsbereich streng- 
genommen auf diese Situationen beschrankt werden. Aussagen uber andere 
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Situationen lassen sich dann zwar logisch nicht ableiten, es spricht jedoch 
nichts dagegen, aus Theorien und Hypothesen, die sich in strengen Prufungen 
gut bewahrt haben, sog. technologische Prognosen zu gewinnen (Gadenne, 
1976; Brocke, 1978, 1979). M it Hilfe von GesetzmaBigkeiten, die (u.U. nur 
im Labor) relativ gut gesichert worden sind, werden also Voraussagen 
uber Variablenzusammenhange in komplexen praktischen Situationen wie 
z.B. einer Psychotherapie gemacht. Anders als bei der isolierten Bedingungs- 
variation des intern validen Experiments sind dort aber ganz sicher auch ande- 
re Variablen wirksam. 

Im Zusammenhang mit der Variablenvaliditat hatten wir im Abschnitt 2.5 
erwahnt, daB mit der UV des Experiments Aspekte des Versuchsleiterverhal- 
tens und Hypothesen der Versuchspersonen uber die von ihnen erwarteten 
Verhaltensweisen konfundiert sein konnen und daft dadurch falschliche Falsi- 
fikationen und Bestatigungen entstehen konnen. Wir erinnern hier an diesen 
Punkt, weil die Hohe der Gefahr einer solchen Konfundierung abhangig sein 
kann von der Situation, in der das Experiment durchgefuhrt wird. Je „unauf- 
falliger" und „naturlicher" die Herstellung der Behandlungsbedingungen und 
die Registrierung der abhangigen Variablen erfolgt, je weniger Hinweise auf 
Hypothesen und Erwartungen des Experi mentators die Situation den Proban- 
den gibt, desto geringer ist die Gefahr derartiger Storungen der Variablenvali- 
ditat. 

Von den moglichen MaBnahmen zur Vermeidung solcher Forschungsartefakte 
seien nur einige der wichtigeren genannt: 

Die Tauschung der Probanden uber ihre Rolle als Versuchspersonen und/ 
Oder uber die Erwartungen des Versuchsleiters; 

Durchfuhrung von Feldexperimenten und Simulationsstudien (Rollen- 
spiele); 

Erfassung der abhangigen Variablen durch nicht-reaktive Methoden (vgl. 
auch Abschnitt 2.5; zu weiteren Einzelheiten siehe etwa Bredenkamp, 
1969a; Summers, 1970; Bungard & Luck, 1974; Webb et al ., 1975; Carls- 
mith, Ellsworth & Aronson, 1976). 

Wir wollen nun die Beziehung zwischen der Variablenvaliditat und den ande- 
ren Arten der experi mentel I en Validitat genauer betrachten. Diese Beziehung 
hangt ganz entscheidend von der zu prufenden Hypothese ab (Gadenne, 1976, 
99-103). Bezieht sich die Hypothese auf ideale, kunstliche Situationen (z.B. 
weil die Annahme der Konstanz aller anderen Bedingungen notwendig ist), ist 
es meist relativ einfach, gleichzeitig al le Teilaspekte der experi mentel I en Vali- 
ditat in befriedigendem AusmaG sicherzustellen. Anders ist es bei Theorien 
und Hypothesen, deren Begriffe nur in naturlichen Situationen realisiert wer- 
den konnen, wie z. B. bei vielen entwicklungspsychologischen Theorien Oder 
bei Hypothesen uber das Verhalten in sozialen Gruppen. Sollen Prufungen 
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solcher Hypothesen eine hohe Variablenvaliditat haben, mussen sie in Situa- 
tionen durchgefuhrt werden, die haufig nur eine ungenugende Kontrolle der 
Storfaktoren der internen Validitat erlauben. Hier stellen also Variablenvalidi- 
tat und interne Validitat kontrare, wenn nicht sogar unvereinbare Ziele dar. 
Typisch fur die Psychologie sind jedoch Hypothesen und Theorien, die so- 
wohl im Labor wie in naturlich auftretenden Situationen Gultigkeit beanspru- 
chen. Diese konnen zwar durchaus im Labor-Experiment einer Prufung unter- 
zogen werden; wie schon im Zusammenhang mit der Situationsvaliditat er- 
wahnt, erfordert eine strenge Prufung dieser Hypothesen aber auch ihre Uber- 
prufung in anderen Umgebungen, also z.B. die Durchfuhrung von Feld- Oder 
Quasi-Exp eri men ten . 

Insgesamt gesehen sind Variablenvaliditat und interne Validitat von grundle- 
genderer Bedeutung als Populations- und Situationsvaliditat. Bei unzureichen- 
der Variablenvaliditat Oder interner Validitat ist ein Experiment auf keinen Fall 
eine strenge Prufung der betrachteten Kausalhypothese, bei mangelhafter Po- 
pulations- Oder Situationsvaliditat dagegen ist immerhin noch eine strenge 
Prufung der in ihrer Gultigkeit auf die entsprechende Population Oder Situa- 
tion eingeschrankten Hypothese moglich. 



6. Statistische Validitat 

Wir haben im Abschnitt 4.1 gesehen, daB psychologische Hypothesen typi- 
scherweise als Kausalaussagen formuliert sind, die fur jede einzelne Person 
(oder Gruppe Oder Schulklasse etc.) einer bestimmten Population gelten sol- 
len. Eine empirische Uberprufung derartiger Hypothesen ware dann am 
strengsten, wenn man ihre Gultigkeit fur jede einzelne Person (oder Gruppe 
etc.) untersuchen konnte. Nun gibt es zwar durchaus Methoden zur Einzel- 
fallanalyse (siehe etwa Hersen & Barlow, 1976; Kratochwill, 1978; Petermann 
& Hehl, 1979; Petermann, 1981), doch ist fur eine hinreichend strenge Pru- 
fung von Kausal hypothesen in aller Regel die Zusammenfassung mehrerer 
untersuchter Personen (oder allgemein: mehrerer experimenteller Untersu- 
chungseinheiten) notwendig, und zwar in erster Linie aus den folgenden zwei 
Grunden, die sich aus unseren bisherigen Ausfuhrungen ergeben (vgl. auch 
Gadenne, 1976, 88f.): 

(1) Die interne Validitat einer Untersuchung kann nur in ausreichendem MaBe 
gesichert werden, wenn mehrere experimentelle Einheiten den Auspragun- 
gen der unabhangigen Variablen zufallig zugeordnet werden (vgl. Ab- 
schnitt 3.3.2; bei M eBwiederholungen entsprechend - siehe Abschnitt 
3.4). 

(2) Ordnen wir einem theoretischen Begriff eine empirische Variable zu, so ist 
diese i. a. keine eineindeutige oder fehlerfreie Entsprechung des theoreti- 




68 



Willi Hager und Rainer Westermann 



schen Begriffs. Dies wird am Beispiel leicht deutlich: Das Ergebnis eines 
Probanden in einem Intelligenztest kann man nicht als fehlerfreies MaR fur 
die Auspragung des theoreti schen Begriffs „lntelligenz" ansehen, weil das 
verfugbare „Hintergrundwissen" die Information enthalt, daR es z.B. auch 
durch den augenblicklichen Ermudungszustand beeinfluRt wird. Hat da- 
her eine Person ein unterdurchschnittliches Ergebnis in diesem Test er- 
zielt, so werden wir sie trotzdem nicht sofort als „unterdurchschnittlich 
intelligent" bezeichnen, wenn wir z.B. wissen, daR dieser Test nach einer 
anstrengenden Nachtschicht durchgefuhrt worden ist. Zur Notwendigkeit 
derartiger „Ausweichklauseln" und ihren Konsequenzen fur die Zuord- 
nung von theoretischen und empirischen Begriffen siehe insbesondere 
Herrmann (1973). 

Beobachtet man - um beim einfachsten Fall zu bleiben -jeweils n Versuchs- 
personen unter zwei experimentellen Bedingungen, wird man praktisch hi n- 
sichtlich aller in Psychologie und anderen Sozial- und Biowissenschaften inter- 
essierenden abhangigen Variablen feststellen, daR auch bei Personen aus der 
gleichen Behandlungsbedingung verschiedene Werte auftreten. Diese Varia- 
tion entsteht sowohl durch Unterschiede zwischen den Probanden hinsichtlich 
der verschiedensten Personlichkeitsmerkmale (z. B. Alter, Geschlecht, Intel I i- 
genz) und hinsichtlich der vorausgegangenen Erfahrungen (z.B. mit ahnlichen 
Aufgaben) als auch durch - nicht ganz vermeidbare - Unterschiede in den 
Durchfuhrungsbedingungen bei den verschiedenen Probanden sowie durch 
geringe Zuverlassigkeit der MeRinstrumente und/ Oder Beobachter. 

Betrachten wir wieder unsere Beispiel hypothese WH U , aus der ja die empirisch 
prufbare Aussage folgt, daR unter der (Dissonanz-)Bedingung X 2 die Einstel- 
lungsvariable Y groRer ist als unter der (Kontroll-)Bedingung X,. Auch ange- 
sichts der stets anzutreffenden Fehlervarianz der Variablen Y ware die Prufung 
dieser Hypothese vollig unproblematisch, wenn bei intraindividueller Bedin- 
gungsvariation alle Individuen unter X 2 einen hoheren Y-Wert Flatten als unter 
X 1 bzw. wenn bei interindividueller Bedingungsvariation die Y-Werte aller 
unter X 2 beobachteten Personen groRer waren als bei den Personen unter X v 
Leider ist das in der Psychologie (und in verwandten Wissenschaften) prak- 
tisch nie der Fall, vielmehr uberlappen sich die Verteilungen der Werte auf der 
abhangigen Variablen unter den verschiedenen Bedingungen mehr Oder min- 
der stark. Deshalb lassen sich hier Kausalhypothesen nur dadurch uberprufen, 
daR man aus ihnen statistische Hypothesen ableitet.") Wir wollen dies etwas 
naher erlautern (nach Bredenkamp, 1972): Aus WH U folgt beispielsweise die 
statistische Hypothese, daR der Mittelwert der Verteilung der Y-Werte unter 



12 ) Der Gedanke einer implikativen Beziehung zwischen wissenschaftlichen statisti- 
schen Hypothesen geht u.W. auf Meehl (1967) zuruck und wurde von Bredenkamp 
(1969b, 1972, 1979, 1980) aufgegriffen und weiterentwickelt. 
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der Bedingung X 2 groBer ist als der entsprechende Mittelwert unter X b Oder 
kurz H,: ^ 2 >Ri bzw. anders geschrieben iij-^X). 13 ) Logisch gesehen besteht 
zwischen der wissenschaftlichen Hypothese WH U und der statistischen Hypo- 
these H, eine Implikationsbeziehung: WH^H!. 14 ) Diese Beziehung eroffnet 
die Moglichkeit, wissenschaftliche Hypothesen uber die Prufung von statisti- 
schen Hypothesen zu falsifizieren. Denn kann man feststellen, daB die statisti- 
sche Hypothese falsch ist, muB bei Gultigkeit der Implikationsbeziehung auch 
die ubergeordnete wissenschaftliche Hypothese falsch sein. Zeigt sich dage- 
gen, daB die statistische Hypothese richtig ist, hat sich auch die wissenschaftli- 
che Hypothese in dem betr. Experiment bewahren konnen. 

Diese Verfahrensweise scheitert in der dargestellten einfachen Form jedoch 
daran, daB statistische Hypothesen selbst grundsatzlich weder beweisbar noch 
widerlegbar sind, weil sie Aussagen uber unendliche Populationen enthalten 
(Bredenkamp, 1972). Man kann lediglich Kriterien festlegen, die Angaben 
uber die Bedingungen enthalten, unter denen man sich fur die Annahme Oder 
fur die Ablehnung einer statistischen Hypothese entscheiden will (Gadenne, 
1976, 86). 

Auch wenn man aufgrund der erhobenen Daten zu der Entscheidung gelangt, 
daB die H t falsch ist, kann man wegen der Unsicherheit uber den Wahrheits- 
wert von statistischen Hypothesen daraus nie logisch die Falschheit der uber- 
geordneten Kausal hypothese WH U ableiten. Man kann lediglich eine weitere 
methodologische Regel akzeptieren und befolgen, nach der die Entscheidung 
fur die Falschheit von H x notwendige Voraussetzung fur eine Falsifikation der 
Kausal hypothese WH U ist und nach der die Kausal hypothese solange als be- 
wahrt gelten kann, wie man die von ihr implizierte statistische Hypothese fur 
richtig halt. 

Unabhangig von der Wahl des Verfahrens, mittels dessen man zu Entschei- 
dungen uber das Zutreffen der statistischen Hypothesen gelangen will, besteht 
stets die Moglichkeit, daB falsche Entscheid ungen getroffen werden - wir 
kommen auf dieses Problem im Abschnitt 7.3 zuruck. 



13 ) Zur genaueren Definition des Begriffs der statistischen Hypothese siehe Abschn. 
7.1. Betont sei auch, daB aus der WH U noch andere statistische H ypothesen ableitbar 
sind, etwa uber Mediane („Md 2 > Md^oder uber die stochastische GroGe von Zu- 
fallsvariablen („F,(Y) > F 2 (Y) fur alle Werte der AV Y"). 

14 ) Eine Implikationsbeziehung zwischen wissenschaftlicher und statistischer Hypo- 
these kann auch dann hergestellt werden, wenn die wissenschaftliche Hypothese eine 
Wahrscheinlichkeitsaussage der Form Prob(dE | D) = q ist (vgl. Abschnitt 4.1). 

Auch wenn man Theorien als axiomatisch formulierte abstrakte Strukturen betrachtet 
(s. Groeben & Westmeyer, 1975, 71-75; Westmeyer, 1981), kann die Angemessenheit 
einer solchen Theorie fur einen bestimmten empirischen Sachverhalt gepruft werden, 
indem man aus den Axiomen statistische Hypothesen ableitet und diese uberpruft (vgl. 
Westermann, 1980). 
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Das Kriterium der strengen Prufung von Kausalhypothesen erfordert nun, 
vereinfacht ausgedruckt (vgl. Abschnitt 1.3), daft die Wahrscheinlichkeit hy- 
pothesenkontrarer Ergebnisse hoch ist, wenn die Kausalhypothese falsch ist, 
und daB sie niedrig ist, wenn die Hypothese „wahr" ist. 

Daraus folgt: Die Prufung einer Kausalhypothese uber eine statistische Hypo- 
these ist (alle anderen Bedingungen als konstant vorausgesetzt) um so strenger, 
je geringer die Wahrscheinlichkeiten fur Fehler bei der Entscheidung uber die 
abgeleitete statistische Hypothese sind. 

Diejenigen Faktoren, die diese Fehlerwahrscheinlichkeiten erhohen, wollen 
wir als „Storfaktoren der statistischen V aliditat (StatV)" bezeichnen (in Anleh- 
nung an Cook & Campbell, 1976). Wodurch die statistische Validitat einer 
Untersuchung konkret beeintrachtigt werden kann und wie man diese Storun- 
gen zu vermeiden versuchen kann, werden wir im Teil 8 erlautern. Grundlage 
dafur ist der Teil 7, in dem die fur unser Thema wichtigsten Aspekte des 
statistischen H ypothesentestens dargestellt sind. Die Teile 9 und 10 sind dann 
zwei Teilaspekten der statistischen Validitat gewidmet: den MaBen fur die 
GroBe „experimenteller Effekte" und der nach bestimmten Kriterien optima- 
len Wahl der Zahl N von Untersuchungseinheiten. Die Uberlegungen in den 
Teilen 7 bis 10 fuhren uns zu Empfehlungen, wie man bei der Planung und 
Durchfuhrung von statistischen Hypothesenprufungen vorgehen sol Ite und 
wie man auf dieser Basis zu Entscheidungen uber Falsifikation Oder Beibehal- 
tung wissenschaftlicher Hypothesen gelangen kann. Diese Planungs- und Ent- 
scheidungsstrategie ist im abschlieBenden Teil 11 dargestellt. 



7. Eine Strategie zur Entscheidung zwischen statistischen 
Hypothesen: Der Signifikanztest 

7.1 Uberblick uber verschiedene alternative Strategien 

Die Entscheidung uber das Zutreffen von statistischen Hypothesen, die i.a. 
uber Verteilungen von Zufallsvariablen Oder deren Parameter formuliert wer- 
den, kann grundsatzlich auf mehrere Arten erfolgen, die wir im folgenden 
nach Menges (1972) und Barnett (1973) kurz und summarisch auffuhren. 15 ) 

1. Das Verfahren nach Bayes setzt weitgehende Kenntnisse uber die o.a. Ver- 
teilungen voraus, die haufig nur unter Verwendung subjektiver Annahmen 
verfugbar gemacht werden konnen - siehe zu diesem Modell im einzelnen 
Edwards, Lindman & Savage (1963), Menges (1972, 272-274), Philips 
(1974), Ruppell (1977), Rutzel (1979, 1980) sowie Kleiter (1981). 



15 ) Wir greifen die hier nicht erlauterten Begriffe im folgenden auf. 
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2. Das von Fisher (e. g. 1935) entwickelte Fiduzial-Modell ist anwendbar ohne 
Vorkenntnisse uber die Verteilungen von Zufallsvariablen, dabei „aber an 
strenge Bedingungen geknupft" (Menges, 1972, 275). Es ist wenig ge- 
brauchlich, hat sich aber als das bislang einzig exakte Modell zur Losung des 
sog. „Behrens-Fisher-Problems" erwiesen (vgl. dazu Abschnitt 8.2.4.1). 
Eine kurze Darstellung des Fiduzial-Modells findet man etwa bei Menges 
(1972, 275-279). 

3. Das ebenfalls auf Fisher zuruckgehende Likelihood-Model I erlaubt die Be- 
stimmung der (relativen) „Plausibilitat" (Likelihood) von Parametern - 
siehe dazu im einzelnen u.a. Edwards (1972), Menges (1972, 279-283) und 
Witte (1980, 34-40). 

4. Das Konfidenz-M odell ermoglicht die Angabe von Zufallsintervallen, die 
mit vorgegebener Wahrscheinlichkeit einen bestimmten Parameter um- 
schlieBen Oder uberdecken. Die weite Verbreitung dieses Modells doku- 
mentiert sich auch darin, daB es in fast jedem Lehrbuch der Statistik vglw. 
ausfuhrlich erortert wird; siehe zur Einfuhrung etwa Menges (1972, 
282-286), Hays (1977, Kap. 9) Oder Witte (1980, 23-26). 

5. Vor dem Hintergrund dieses Konfidenz-Konzepts wurden die „klassi- 
schen" Theorien des Signifikanztests entwickelt, namlich das Modell von 
Fisher (e.g. 1925, 1956) und das Modell von Neyman & Pearson (1933a, b, 
1936, 1938; Neyman, 1952). 

6. Das Modell der sequentiellen Tests von Wald (1947) geht uber diese Ansatze 
hinaus und kann als Spezialfall einer allgemeinen Theorie der statistischen 
Entscheidungsfunktionen aufgefaBt werden (Wald, 1950); zur Darstellung 
siehe etwa Weber (1967, 395-482) und Wetherill (1975). 

Vergleiche bzgl. der Leistungsfahigkeit einiger der aufgefuhrten Ansatze findet 
man etwa bei Bredenkamp (1972, 134-150), Barnett (1973) und Witte (1977, 
1980); zur Verbindung verschiedener Verfahren zu einem mehrstufigen Infe- 
renzmodell siehe Witte (1980). 

Ublicherweise wird von Psychologen, Padagogen und Sozialwissenschaftlern 
der Signifikanztest zur Entscheidung uber das Zutreffen von statistischen Hy- 
pothesen herangezogen - vgl. zu dieser Behauptung u.a. Sterling (1959), 
Cohen (1962), Edgington (1964 a, 1974), Smart (1964), Bozarth & Roberts 
(1972), Bredenkamp (1972, 9) und Witte (1980, 17). Aus diesem Grunde be- 
schranken wir unsere Ausfuhrungen auf dieses Verfahren. 

Dabei ist anzumerken, daB es „den" Signifikanztest nicht gibt. Vielmehr beste- 
hen in Theorie und Praxis divergierende Auffassungen uber das Rationale, das 
der Gruppe von Verfahren zugrunde liegt, die unter der Bezeichnung „Signifi- 
kanztest" zusammengefaBt werden, und uber ihre adaquate Anwendung. 

Die theoretische Kontroverse entstand in den dreiBiger Jahren, als Jerzy 
Neyman und Egon S. Pearson (1933 a, b, 1936, 1938) das hauptsachlich in den 
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zwanziger Jahren von Sir Ronald A. Fisher (1925, 1956) entwickelte Modell 
der statistischen Hypothesenprufung durch ihre Theorie der Fehler 1. und 2. 
Art zu erweitern suchten und Fisher diese Erweiterung strikt zuruckwies. Wir 
konnen aus Raumgrunden auf diese Kontroverse nicht naher eingehen, son- 
dern mussen den I nteressenten auf zusammenfassende Darstellungen verwei- 
sen, etwa auf den Reader von Morrison & Henkel (1970) sowie die Veroffent- 
lichungen von Spielman (1974, 1978), Carlson (1976), Chase & Tucker (1976) 
sowie Witte (1980). 

Ebensowenig konnen wir die Grundgedanken dieser Testtheorien hier vorstel- 
len; die in den nachfolgenden Abschnitten enthaltenen skizzenhaften Darstel- 
lungen einiger fur das Verstandnis spaterer Ausfuhrungen notwendiger Aspek- 
te des Signifikanztests setzen daher die Kenntnis der Grundgedanken voraus. 
Sofern der Leser mit diesen nicht vertraut ist, mag er sich in einem der zahlrei- 
chen Lehrbucher informieren, etwa in den eher mathematisch Oder wissen- 
schaftstheoretisch orientierten Einfuhrungen von Kendall & Stuart (1961), 
Hacking (1965, 1976), Fisz (1970), Menges (1972), Stegmuller (1973a, b) Oder 
Mood, Graybill & Boes (1974); eher fur Psychologen und Sozialwissenschaft- 
ler verfaGte Texte stammen von Hays (1963, 1977), Stilson (1966), Kriz (1978), 
Leiser (1978), Bortz (1979), Haagen & Seifert (1979) sowie Witte (1980) - 
diese Zusammenstellung erhebt selbstverstandlich keinen Anspruch auf Voll- 
standigkeit. 

Gegen bestimmte Aspekte der Anwendung von Signifikanztests im Bereich 
der Psychologie und verwandten Wissenschaften sind wiederholt und zu 
Recht teils schwerwiegende Bedenken ins Feld gefuhrt worden (vgl. zu einigen 
Einzelheiten etwa die Abschnitte 7.4.1 und 7.4.2). Diese haben Autoren wie 
etwa Kleiter (1969), H arnatt (1975, 1979), Derrick (1976), Guttman (1977) 
und Carver (1978) zu der Empfehlung veranlaBt, auf Signifikanztests weitest- 
gehend Oder vollig zu verzichten. 

Wir sind zwar mit Tukey (1977) der Auffassung, daB etwa einer exploratori- 
schen Datenanalyse (EDA) im ForschungsprozeB eine wesentlich gewichtigere 
Rolle beigemessen werden muB, als es derzeit geschieht, meinen aber anderer- 
seits mit Bredenkamp (1972, u.a. 134-150; 1980) und Witte (1980), daG ein 
„richtig angewendeter" Signifikanztest trotz aller immanenten Schwachen 
(derzeit noch) unverzichtbar ist. 

Wenden wir uns nun einigen Aspekten der Prufung von statistischen Hypo- 
thesen mittels Signifikanztests zu! 
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7.2 Kurzer AbriB einiger Charakteristika von Signifikanztests 

M it dem Terminus „statistische Hypothese" belegt man jede Annahme uber 
die Wahrscheinlichkeits- Oder die (theoretische) Populationsverteilung einer 
beobachtbaren Zufallsvariablen Oder aber uber einen Oder mehrere Parameter 
(vgl. Kendall & Stuart, 1961, 161; Hays, 1977, 335; Haagen & Seifert, 1979, 
167-175). 

Der Terminus ..Parameter" bezeichnet dabei eine endliche Menge von Kon- 
stanten, durch die eine Populationsverteilung naher spezifiziert wird - siehe 
zu Einzelheiten etwa Menges (1972, 214-216); zum hier nicht erlauterten 
Terminus ..Zufallsvariable" siehe u.a. Stilson (1966, 121-125), Menges (1972, 
139-145) Oder Hays (1977, 110-133). 

Als Beispiel fur eine Populationsverteilung sei die Gruppe der sog. „Normal- 
verteilungen" genannt, die durch eine einzige Verteilungsfunktion charakteri- 
siert ist (siehe etwa Hays, 1977, 297); die einzelnen Vertreter dieser Gruppe 
unterscheiden sich darin, welche numerischen Werte die beiden Parameter 
dieser Verteilung annehmen, namlich die „Varianz a 2 “ und der „M ittel " Oder 
„Erwartungswert g“ der entsprechenden Zufallsvariablen Y. 

Konnte man die theoretisch moglichen Realisierungen der Zufallsvariablen Y, 
also die Gesamtmenge der Daten, im konkreten Fall vollstandig untersuchen, 
ware eine sichere Entscheidung uber das Zutreffen Oder Nicht-Zutreffen der 
statistischen Hypothese moglich. 

Der empirisch arbeitende Wissenschaftler ist jedoch fast stets darauf angewie- 
sen, weniger sichere und weniger definitive Aussagen aufgrund einer nur be- 
schrankten Menge von Daten zu treffen. Diese Untermenge der Population 
von Daten heiBt „Stichprobe (von Daten)"; sie umfaBt eine mogliche Auswahl 
aus der Grundgesamtheit. 

Man spricht von einer „Zufallsstichprobe", wenn alle moglichen Auswahlva- 
rianten der gleichen GroBe n die gleiche Wahrscheinlichkeit haben, als Stich- 
probe zu fungieren (vgl. Fisz, 1970, 394; Hays, 1977, 72); uber andere Stich- 
probentechniken informieren etwa Schwarz (1975), Cochran (1972, 1977) so- 
wie Rasch et al. (1978). Innerhalb des Modells „Signifikanztest" kommt dem 
Konzept der zufalligen Stichproben fur die wesentlichen Ableitungen eine 
zentrale Bedeutung zu. 

Die Verteilung der Daten in der Stichprobe wird durch die sog. „(empirische) 
Haufigkeitsverteilung" angegeben. Wie die Verteilung der Rohwerte in der 
Population durch bestimmte Parameter gekennzeichnet ist, die die in den 
Daten enthaltene Information zusammenfassen und reduzieren, so sind auch 
die Stichprobendaten durch sog. „Stichprobenfunktionen" Oder „Statistiken" 
beschreibbar, die die Haufigkeitsverteilung charakterisieren. 
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Statistiken stellen haufig das Stichprobenaquivalent bestimmter Parameter dar, 
ohne mit diesen wertmaBig ubereinstimmen zu mussen. Denn durch zufallsbe- 
dingte Schwankungen weicht die Stichprobenzusammensetzung meist von der 
Populationszusammensetzung ab. Erhebt man nun sehr viele Stichproben der 
gleichen GroBe n und berechnet die empirischen Werte einer Statistik, dann 
dokumentieren sich diese Zufallsschwankungen darin, daB die resultierende 
„Stichproben-Kennwerte- Oder Pruf- Oder Stichproben-Verteilung" der be- 
treffenden Statistik eine Varianz groBer als Null aufweist. 16 ) 

Um die auf i. a. sehr verschiedenen Experimenten beruhenden Werte fur eine 
Statistik problemlos auf nur eine Prufverteilung beziehen zu konnen, werden 
die Statistiken linear transformiert, und man nennt derartige „transformierte 
Statistiken" „Pruf- Oder Test- Statistiken". Haufig besteht diese Transforma- 
tion in einer Standardisierung, wie es etwa beim t-Wert der Fall ist, der eine<n) 
standardisiertefn) M ittelwert(sdifferenz) darstel It; andere bekannte Teststati- 
stiken sind etwa x 2 , F Oder H. 

Um von den Stichproben- auf die Populationsdaten Oder -kennwerte schlie- 
Ben zu konnen, muB eine Verbindung zwischen der beobachtbaren Stichprobe 
und der theoretischen Grundgesamtheit konstruiert werden. Dies geschieht 
durch die sog. „Schatzfunktionen", d.h. Statistiken Oder Stichprobenfunktio- 
nen „mit bestimmten Eigenschaften" - vgl. dazu Menges (1972, 294f.). Auf 
diese Schatzfunktionen gehen wir nicht ein; der interessierte Leser sei auf die 
zu Beginn dieses Teils genannte einfuhrende Literatur verwiesen. 

Wie erwahnt, weichen die Stichproben(kenn)werte in aller Regel von den 
Populations(kenn)werten ab - diese Abweichung Oder Verzerrung wird als 
„unsystematisch" (oder „zufallig") interpretiert und als eine Folge des Stich- 
probenprozesses angesehen (vgl. Abschnitt 8.2). Der Signifikanztest dient nun 
der Beantwortung der Frage, ob ein konkretes empirisches Resultat, d.h. etwa 
eine empirische Realisation der Zufallsvariable „Teststatistik", als nur durch 
den Zufall zustande gekommen „erklart" werden kann Oder ob die Annahme 
einer systematischen „Verursachung" angemessener erscheint. Der Erklarung 
„durch Zufall" wird dann der Vorzug gegeben, wenn die Realisation der Test- 
oder Prufstatistik in eine Klasse von moglichen Realisationen fallt, der eine 
insgesamt hohe Wahrscheinlichkeit zukommt; letztere wird unter Verwen- 
dung der o. g. Prufverteilung bestimmt. 

Fur die mathematische Ableitung der Prufverteilung muB die Gultigkeit einer 
statistischen Hypothese und (sehr oft auch) eine bestimmte Populationssitua- 
tion (vgl. Abschnitt 7.5.2) angenommen werden. Findet man dann, daB der 

16 ) Je groBer diese Varianz der Stichprobenverteilung ist, desto geringer ist unter sonst 
gleichen Bedingungen die „Prazision" eines Experiments - vgl. dazu insbesondere 
Abschnitt 8.4. - Mit dem sog. „Standardfehler (einer Teststatistik)" ist die Wurzel aus 
dieser Varianz gemeint. 
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empirische Wert fur eine Teststatistik in einen Bereich fallt, der unter diesen 
Annahmen insgesamt wenig wahrscheinlich ist, schlieBt man daraus, daB die 
als richtig unterstellte Hypothese nicht zutrifft, daB m.a. W. die untersuchte 
Stichprobe einer Population entstammt, deren Parameter andere Werte auf- 
weisen bzw. deren Verteilung anders ist, als in der statistischen Hypothese 
angenommen. 

Die statistische Hypothese, auf deren Zutreffen die Ableitung der Stichpro- 
benverteilung einer beliebigen (Test-)Statistik beruht, heiBt ublicherweise die 
„Null-Hypothese" (H 0 ). 

Eine H 0 wird in der Regel von inhaltlichen Aussagen der Form „Es besteht 
kein Unterschied zwischen verschiedenen experimentellen Behandlungen und 
damit deren Auswirkungen auf bestimmte Parameter bzw. Verteilungen" im- 
pliziert. 

Wir haben jedoch im Teil 6 gesehen, daB unsere Kausal hypothese WH U zu 
anderen Vorhersagen fuhrte, namlich etwa der, daB „Unterschiede zwischen 
verschiedenen Kennwerten bestehen". Man nennt die von einer derartigen 
inhaltlichen Aussage implizierte statistische Hypothese die „Alternativhypo- 
these" (Hj). 

EntschlieBt man sich aufgrund der experimentellen Daten, die H 0 zuruckzu- 
weisen, nimmt man ublicherweise gleichzeitig dieH, an, weil die beiden stati- 
stischen Hypothesen sich gegenseitig ausschlieBen und daruber hinaus in der 
Regel so formuliert sind, daB sie alle logisch moglichen Annahmen uber die 
Verteilungen Oder Parameter ausschopfen. Wenn wir bei unserem Beispiel aus 
Teil 6 bleiben, ware die dort uber Populationsmittelwerte p k formulierte Hy- 
pothese H,: p, 2 - pi > 0 um die H 0 : p 2 - p! < 0 zu erweitern. Entsprechend 
gehort zu einer H 0 : pi — p 2 = 0 die p t — p 2 0 usf. 

Man entscheidet sich also ublicherweise fur die von einer WH implizierte H 1; 
indem man die ihr entgegengesetzte H 0 zuruckweist. Fur diese Ablehnung der 
H 0 wird folgendes Kriterium festgesetzt: „Weise die H 0 dann zuruck, wenn 
Du ein Ergebnis gefunden hast, das zu einer Ergebnisklasse gehort, die unter 
der Annahme der Gultigkeit der H 0 eine Gesamtwahrscheinlichkeit aufweist, 
die kleiner Oder gleich einem bestimmten geringen Wert a ist." Man nennt a 
das „Signifikanzniveau". 

Durch dieses Signifikanzniveau a (auch „Umfang eines Tests" Oder Jrrtums- 
Wahrscheinlichkeit" genannt) wird die Menge aller moglichen Realisationen 
einer Teststatistik in zwei unterschied I ich groBe Teilmengen zerlegt. Die gro- 
Bere dieser Teilmengen heiBt „Annahmebereich" und enthalt diejenigen 100 
(1 - a) % aller moglichen Werte der Prufstatistik, die als mit der H 0 vereinbar 
angesehen werden, deren Varianz also als zufallsbedingt angesehen werden 
kann. Die kleinere Teilmenge dagegen heiBt „Ablehnungs- Oder Rejektionsbe- 
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reich", weil sie alle diejenigen Realisationen der Teststatistik enthalt, die zwar 
unter Gultigkeit der H 0 durchaus auftreten konnen (!), deren Auftretenswahr- 
scheinlichkeit insgesamt jedoch so gering ist, daG sie „auf lange Sicht" nur 
(sehr) selten, namlich in 100 . a % aller Falle, zu erwarten sind, falls H 0 
zutrifft. 

Man bezeichnet ein Ergebnis in diesem Ablehnungsbereich als ,,statistisch 
signifi kant" und meint damit, daG es „bedeutsam" von einem aufgrund des 
Zufalls zu erwartenden Resultat abweicht. 

Wenn nun eine empirische Realisation der Zufallsvariablen „Teststatistik" in 
diesen Ablehnungsbereich fallt, d.h. unter Gultigkeit der H 0 (sehr) unwahr- 
scheinlich ist, dann kann dieses „seltene Ereignis" grundsatzlich auf zwei ver- 
schiedene Arten interpretiert werden: 

1. Die H 0 ist richtig, und es ist „rein zufallig" ein Wert aus einer Ereignisklasse 
mit einer insgesamt nur sehr geringen Wahrscheinlichkeit aufgetreten. 

2. Das Resultat ist sehr unwahrscheinlich, falls H 0 zutrifft. Es wird daher 
davon ausgegangen, daG H 0 falsch und Hx richtig ist. 

Zwischen beiden Moglichkeiten laGt sich keine objektiv richtige Entscheidung 
treffen; es entspricht daher lediglich einer auf Fisher ( 1925 ) zuruckgehenden 
Konvention, wenn im Falle eines unter H 0 unwahrscheinlichen (wiewohl mog- 
lichen!) Resultates entschieden wird, die H 0 als falsch anzusehen - vgl. zu 
dieser Verfahrensweise auch Neyman (1952, 43). 

An dieser Stelle wird deutlich, daG der Signifikanztest als eine spezielle Strate- 
gie aufgefaGt werden kann, mittels derer man zu Entscheidungen uber das 
Zutreffen Oder N icht-Zutreffen von statistischen Flypothesen gelangen kann. 
Die Entscheidungskriterien sind dabei nicht „test-i immanent" Oder sonstwie 
zwingend vorgegeben, sondern beruhen vorwiegend auf Vereinbarungen. 



7.3 Mogliche Fehler beim statistischen Testen 

7.3.1 Fehler unter Gultigkeit der N ull-H ypothese (Fehler 1. Art) 

Obwohl unter Gultigkeit der Fl 0 extreme Resultate (sehr) unwahrscheinlich 
sind, besteht doch grundsatzlich die Moglichkeit ihres Auftretens. Tritt nun in 
empirischen Daten ein Wert der Statistik im Ablehnungsbereich unter H 0 auf, 
obwohl Fl 0 tatsachlich zutrifft, wird man diese irrtumlich als nicht zutreffend 
zuruckweisen. Mit dieser (Fehl-)Entscheidung begeht man einen sog. „Fehler 
1. Art", auch a-Fehler genannt. 

Die bedingte Wahrscheinlichkeit fur einen derartigen Fehler betragt a, denn 
die Wahrscheinlichkeit der Klasse von sehr extremen Resultaten, die im Ab- 
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lehnungsbereich von H 0 liegen, ist bei stetigen Verteilungen genau und bei 
diskreten Verteilungen hochstens gleich dem Signifikanzniveau a: 

p(Zuruckweisung von H 0 [ H 0 trifft zu) = a. 

Diese Fehlerwahrscheinlichkeit kann durch die Wahl sehr kleiner Werte fur a, 
etwa a = 0,05 Oder a = 0,01 etc., vom E selbst kontrolliert und gering 
gehalten werden. M it der Fixierung des numerischen Wertes fur a expliziert 
der E seine maximale Bereitschaft, einen Fehler 1. Art zu begehen. M it der 
Wahl des Wertes fur a wird der Annahme- und Ablehnungsbereich fur die 
betr. Stichprobenverteilung ebenfalls festgelegt. 

Diese Festlegung hat in jedem Fall vor der Datenerhebung zu erfolgen, da 
durch sie der Signifikanztest „erst . . . eindeutig bestimmt ist" (Flaagen & 
Seifert, 1979, 203). 

Das Komplement zur Wahrscheinlichkeit a ist 1 - a; dabei handelt es sich um 
die bedingte Wahrscheinlichkeit, eine zutreffende H 0 auch als richtig auszu- 
weisen: 



p(Annahme von H 0 | H 0 trifft zu) = 1 - a. 

Die Gesamtwahrscheinlichkeit aller numerischen Werte der Statistik im An- 
nahmebereich unter H 0 betragt 1 - a; d.h. in 100-(1 -a) % aller Falle wird 
erwartet, daB der Signifikanztest eine in der Population wahre Null-Flypothe- 
se „entdeckt". 

Nun ist hier fortwahrend von „der" Null-Flypothese die Rede, obwohl wir im 
vorangegangenen Abschnitt 7.2 gesehen haben, dal$ unter „der" N ul l-H ypo- 
these auch eine ganze Klasse von Werten fur den in Frage stehenden Parameter 
spezifiziert werden kann; dies kommt etwa in den folgenden (zulassigen) H y- 
pothesenformulierungen zum Ausdruck: 

H 0 : p 2 _ M-i — 0 Oder: H 0 : p < p 0 = 100 (siehe vorn). 

Man nennt derartige Flypothesen, die anstelle nur eines einzigen Wertes einen 
ganzen Wertebereich fur den Parameter spezifizieren, „zusammengesetzt" 
(auch „unspezifisch" und „unexakt"). Dagegen hei (5t eine Flypothese, die nur 
genau einen Wert fur den Parameter zulaBt, „einfach" (auch „exakt" und 
„spezifisch"). Die folgenden beiden Flypothesen sind bspw. exakt: 



H 0 : p 2 — Pi = 0 Oder: H 0 : p = p 0 = 100. 



Naheres zu diesen Unterscheid ungen findet man etwa bei Stilson (1966, 385f.), Weber 
(1967, 167f.) und Bortz (1979, 148f.); zu beachten ist hierbei, dal$ der Sprachgebrauch 
recht uneinheitiich ist, wie die Arbeiten von Hays (1977, 335f.) und Haagen & Seifert 
(1979, 206-225) belegen. 
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Die Frage stellt sich also, welche von diesen theoretisch beliebig vielen Null- 
Hypothesen dem statistischen Test unterzogen wird. Grundsatzlich wird auch 
dann, wenn H 0 eine zusammengesetzte Hypothese ist, nur eine einzige davon 
statistisch gepruft, und zwar diejenige einfache H 0 , die dem Parameterbereich 
am nachsten liegt, der von alien unter der Bezeichnung „H|" zusammengefaB- 
ten Hypothesen abgedeckt wird - vgl. dazu im einzelnen Neyman & Pearson 
(1933 a, b) und Haagen & Seifert (1979, 206-225). 

In den o. gen. Beispielen werden also nur die folgenden Hypothesen gepruft: 

H 0 : \i 2 ~ M-i = 0 und H 0 : p = p 0 = 100. 

Alleanderen unter der Klasse„H 0 " zusammengefaBten Hypothesen sind dann 
zu verwerfen, wenn auch die einfache Hypothese zuruckgewiesen werden 
kann, die den relativ extremsten Wert fur den interessierenden Parameter an- 
gibt. 

Die festgelegte Wahrscheinlichkeit fur einen Fehler 1. Art (a-Fehler) ist dabei 
maximal fur die getestete einfache H 0 und geringer fur alle anderen Elemente 
der Klasse „H 0 “ (Bredenkamp, 1972, 21 f.; Hays, 1977, 363). 17 ) 

Die vorstehenden Ausfuhrungen uber den a-Fehler beruhen auf der Voraus- 
setzung, daB in der Population eine einfache statistische Null-Hypothese zu- 
trifft. Bei den folgenden Darstellungen wollen wir davon ausgehen, daB diese 
Annahme nicht richtig ist, sondern daB die unter der Alternativhypothese 
formulierten Annahmen der Populationssituation entsprechen. 



7.3.2 Fehler unter Gultigkeit der Alternativhypothese (Fehler 2. Art) 

Die statistische Alternativhypothese H, wird in der Regel von einer wissen- 
schaftlichen Hypothese wie unserer Bei spiel hypothese WH U impliziert, die 
wir u.a. auf den Seiten 68 und 69 bereits behandelt haben. 

M it der H x werden Annahmen uber die Werte des interessierenden Parameters 
spezifiziert, die grundsatzlich von den unter H 0 formulierten abweichen. Trifft 
daher eine der unter der Klasse „H|" angegebenen einfachen Alternativhypo- 
thesen zu, resultieren (fast) stets Stichprobenverteilungen der benutzten Pruf- 
statistik, die von den unter H 0 geltenden Verteilungen quantitativ abweichen. 

Der Grad dieser Abweichung von den tabellierten und zur Signifikanzbeurtei- 
lung benutzten sog, „zentralen" Prufverteilungen kann meist durch einen sog. 



17 ) Wenn im folgenden weiter von der Null-Hypothese die Rede ist, soli darunter ggf. 
die gesamte Hypothesenklasse „H 0 " verstanden werden, ohne daB explizit zwischen 
„einfachen" und „zusammengesetzten" Hypothesen unterschieden wird. 
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„N icht-Zentralitatsparameter" angegeben werden (vgl. dazu im einzelnen Ab- 
schnitt 9). Man bezeichnet die unter Gultigkeit der H! resultierenden Stich- 
probenverteilungen als die „nicht-zentralen Verteilungen" der betreffenden 
Teststatistik, die fur x 2 und F erstmals Fisher (1928) naher erortert hat. 

Auch unter Gultigkeit der Fix sind die Realisationen der Teststatistik bestimm- 
ten Zufallsschwankungen unterworfen, die im konkreten Einzelfall so ausge- 
pragt sein konnen, daB der Wert der Statistik im Annahmebereich unter Fl 0 
liegt, die dann angenommen wird. 

Da aber nach unserer Voraussetzung Hi richtig ist, trifft der E damit eine 
falsche Entscheidung, er begeht einen „Fehler 2. Art". Die Wahrscheinlichkeit 
fur einen derartigen Fehler 2. Art, d.h. fur eine irrtumliche Entscheidung fur 
FH 0/ wird formal mit (3 bezeichnet; entsprechend findet sich daher auch oft die 
Bezeichnung ,,B-Fehler". 

Das Komplement zu (3, also 1 - (3, heiBt ,,Teststarke" (,,Macht", ,,Machtig- 
keit", „Gute", „Trennscharfe" Oder „Power") eines Tests und gibt die Wahr- 
scheinlichkeit einer richtigen Entscheidung fur Fix an: 

p(Zuruckweisung der H! und Annahme der H 0 | H! trifft zu) = |3 
p(Annahme der Hj | FI , trifft zu) = 1 - |3 

Wir haben im vorigen Abschnitt festgestellt, daB mit jeder der unter „FI 0 " 
zusammengefaBten einfachen Flypothesen eine ,,eigene" (Gesamt-)lrrtums- 
Wahrscheinlichkeit a verbunden ist, deren Maximalwert ublicherweise vom E 
durch eine Festsetzung gering gehalten wird. In der gleichen Weise ist auch mit 
jeder der unter „FI|" zusammengefaBten einfachen Flypothesen eine eigene 
Fehlerwahrscheinlichkeit [3 verknupft (vgl. zu Einzelheiten etwa Menges, 
1972, 328-335, Oder Hays, 1977, 357-373). Die Wahrscheinlichkeit (3 fur 
eine irrtumliche Annahme der H 0 laBt sich daher nur dann bestimmen, wenn 
angegeben werden kann, welche der zahlreichen einfachen Hypothesen unter 
„H|" zutrifft, wenn also m.a. W. bekannt ist, wie sehr der interessierende 
Parameter (resp. die Verteilung) von dem unter H 0 spezifizierten Wert ab- 
weicht. Wir bezeichnen diese Abweichungen im folgenden allgemein als „ex- 
perimentelle Effekte" (EE), deren Auftreten trotz dieser Benennung nicht an 
die Art der Untersuchung gebunden ist. Auf diese experimentellen Effekte 
gehen wir im Teil 9 ausfuhrlich ein. 

Bestimmt man unter Verwendung der nicht-zentralen Verteilungen die Werte 
fur die Teststarke 1 - (3 in Abhangigkeit vom Signifikanzniveau a, dem experi- 
mentellen Effekt und der StichprobengroBe N fur einen bestimmten Test, 
erhalt man die sog. „Teststarke-", „Gute-" Oder „Trennscharfefunktion" des 
betr. Signifikanztests - zu Einzelheiten siehe etwa Menges (a. a. O.) und Hays 
(a. a. O.). 
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Diese Gutefunktionen sind fur einige der gebrauch lichen (sog. „parametri- 
schen") Teststatistiken wie x 2 > F und t seit geraumer Zeit in tabellarischer 
Form als „Power Tables" sowie in graphischer Form als „Power Charts" 
verfugbar, allerdings vornehmlich in mathematischen und statistischen Fach- 
zeitschriften (vgl. Abschnitt 10.2 und 10.3). Entsprechend wurden sie von 
Psychologen kaum rezipiert; und auch in den meisten Lehrbuchern der Stati - 
stik fur Psychologen und Sozialwissenschaftler wird das Konzept „Teststarke" 
- wenn uberhaupt - nur kurz behandelt.") Es kann daher kaum verwun- 
dern, wenn in der ublichen Forschungspraxis die Wahrscheinlichkeit fur einen 
Fehler 2. Art ((3) nicht kontrolliert Oder bestimmt wird. 

Diese Unterlassung kann bei der Entscheidung zwischen den statistischen H y- 
pothesen zu schwerwiegenden Konsequenzen fuhren. 

1. Moglichkeit: Der E entscheidet sich aufgrund des Tests fur H 0 . Diese Ent- 
scheidung kann deshalb zustande gekommen sein, weil H 0 tatsachlich zu- 
trifft, Oder aber weil zwar dieH, richtig ist, dem E jedoch ein Fehler 2. Art 
unterlaufen ist. Da die Wahrscheinlichkeit |3 fur diesen Fehler meist nicht 
bekannt ist, kann auch nichts uber die Gute der Entscheidung ausgesagt 
werden. Zwar betragt unter der Annahme der Richtigkeit der H 0 die Wahr- 
scheinlichkeit eines Resultates im Annahmebereich l - a, aber unter der 
Richtigkeit der Hj kann die Wahrscheinlichkeit, ein Ergebnis im Ableh- 
nungsbereich von H! zu erhalten, also |3, grundsatzlich numerisch genau so 
groB wie die Wahrscheinlichkeit l - a werden. 

2. Moglichkeit: Der E lehnt Fl 0 ab und entscheidet sich fur die Hj. Diese 
Entscheidung nun kann deswegen getroffen worden sein, weil in der Tat H x 
zutrifft - in diesem Fall ist die Wahrscheinlichkeit eines Resultates im 
Annahmebereich von H! gleich 1 - (3 -, Oder aber, weil dem FIE ein Fehler 
l. Art unterlaufen ist. Zwar wird die Wahrscheinlichkeit dieses Fehlers vom 
E durch die Wahl eines kleinen Signifikanzniveaus gering gehalten; da 
aber andererseits die Wahrscheinlichkeit 1 - (3, eine zutreffende Fix als 
richtig auszuweisen, nicht bekannt ist, kann prinzipiell nicht ausgeschlossen 
werden, dal? ihre numerische GroBe gleich der Oder kleiner als die Wahr- 
scheinlichkeit a ist. 

Wenn wir uns die Implikationsbeziehung zwischen der wissenschaftlichen 
Flypothese WH U und der statistischen Flypothese Hj, also WH U — »Hi, noch 
einmal vergegenwartigen, ergeben sich aus den vorstehenden Erorterungen 
bestimmte (mogliche) Konsequenzen fur die Beurteilung der WFI,: 

Begehen wir einen Fehler l. Art, besteht die Gefahr, daB die wissenschaftliche 
Flypothese falschlicherweise als bewahrt angesehen wird. Begehen wir dage- 

1S ) Der i nteressi erte Leser mag selbst Belege fur diese Behauptung beibringen; dies 
stellt jedoch erfahrungsgemaB keine Schwierigkeit dar. 
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gen einen Fehler 2. Art, besteht die Gefahr, daB die wissenschaftliche Hypo- 
these irrtumlich falsifiziert wird.") 

Wie bereits im Abschnitt 6 angesprochen, ist es unabdingbar, eine zutreffende 
statistische Hypothese mit groBer Wahrscheinlichkeit annehmen und eine 
nicht-zutreffende mit groBer Wahrscheinlichkeit ablehnen zu konnen, da nur 
auf diese Weise - langfristig - gerechtfertigte Falsifikationen Oder aber Be- 
statigungen von wissenschaftlichen Flypothesen zu erwarten sind. 

Es ist daher zwingend erforderlich, nicht nur die Wahrscheinlichkeit a fur 
einen Fehler 1. Art zu kontrollieren und gering zu halten - hierdurch wird 
der Gefahr falschlicher Bestatigungen der WH U entgegengewirkt sondern 
auch die Wahrscheinlichkeit (3 fur einen Fehler 2. Art zu kontrollieren und 
gering zu halten - hierdurch wird die Gefahr ungerechtfertigter Falsifikatio- 
nen in Grenzen gehalten.") 

Diese Forderung nach Kontrolle beider Fehlerwahrscheinlichkeiten sind nicht 
neu; sie wurde bereits von Sterling (1960), Smart (1964), Bakan (1966), Bre- 
denkamp (1969b, 1972, 1975, 1979, 1980), Krause & Metzler (1978) und Witte 
(1977, 1980) erhoben, um nur einige Autoren zu nennen. Die aus ihr folgen- 
den konkreten Flandlungsanweisungen fur die Praxis werden allerdings selten 
real isiert. Bevor wir uns mit diesen naher befassen, wollen wir zunachst die 
GroBen zusammenstellen, die den Ausgang eines (beliebigen) Signifikanztests 
determinieren, und anschlieBend einen Blick auf die verbreitete Forschungs- 
praxis werfen. 



7.4 Die Determinanten eines Signifikanztests 

Unseren bisherigen Darstellungen kann entnommen werden, daB der Ausgang 
eines Signifikanztests stets vornehmlich von den folgenden vier GroBen abhan- 
gig ist: 

1. dem Signifikanzniveau a, 

2. der Teststarke 1 - (3, 

3. dem in den empirischen Daten enthaltenen experimentellen Effekt EE, 

4. der Varianz der Stichprobenverteilung der gewahlten Teststatistik, die ih- 
rerseits stets von der StichprobengroBe N resp. n abhangt (vgl. zu Einzel- 
heiten Abschnitt 8.3). 

Die Beziehungen zwischen diesen vier GroBen werden ublicherweise in den 
Grundlagen-Texten nur am Rande behandelt (vgl. jedoch u.a. Flays, 1963, 

19 ) Selbstverstandlich treffen diese Ausfuhrungen mutatis mutandis auch in den Fallen 
zu, in denen die wissenschaftliche Hypothese eine statistische Null-Hypothese impli- 
ziert: WH Z -*H 0 (Hager & Westermann, im Druck, b). 
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1977; Leiser, 1978; Haagen & Seifert, 1979) und in der Praxis (zu) wenig 
beachtet. 

Um sich eine zumindest ungefahre Vorstellung uber die Bedeutung zu ver- 
schaffen, der insbesondere der StichprobengroBe N fur den Ausgang eines 
Signifikanztests, d.h. der Beurteilung eines empirischen Resultates auf statisti- 
sche Signifikanz, zukommt, sol Ite der Leser sich mit den entsprechenden Bei- 
spielen bei Leiser (1978, 178-191) Oder auch bei Hays (1977, e.g. 357-362) 
vertraut machen. Zur Verdeutlichung der fur uns wichtigsten Beziehungen 
wollen wir uns kurz mit den Tabellen C 4 und C 5 in Gaensslen & Schubo 
(1973, 1976, 314-317) befassen (vgl. ersatzweise etwa Fisher & Yates, 1963, 
63, Oder Bortz, 1979, 832f.). Mittels dieser Tabellen kann der empirisch erho- 
bene Wert fur einen Produkt-Moment-Korrelationskoeffizienten auf statisti- 
sche Signifikanz beurteilt werden. 

Aus den Tabellen wahlen wir einige beliebige Werte fur r aus, stellen fest, ob 
diese Werte bei vorgegebener StichprobengroBe N und vorgegebenem Signifi- 
kanzniveau a als statistisch signifikant (s.) Oder nicht signifikant (n.s.) beurteilt 
werden. Diese Informationen sind in den Tabellen 7.1 und 7.2 neu zusammen- 
gestellt und um eine Angabe uber den jeweiligen experimentellen Effekt EE 
erweitert worden, der hier gleich dem Quadrat des Korrelationskoeffizienten 
ist. 

Tabelle 7.1: Statistische Signifikanz von r bei a = 0.05. 



r 


EE = r 2 


5 


8 


StichprobengroBe N 
16 32 400 


1000 


0,90 


0,81 


S. 


S. 


S. 


S. 


S. 


S. 


0,35 


0,12 


n.s. 


n.s. 


n.s. 


S. 


S. 


S. 


0,12 


0,01 


n.s. 


n.s. 


n.s. 


n.s. 


S. 


S. 


0,08 


0,006 


n.s. 


n.s. 


n.s. 


n.s. 


n.s. 


S. 



Tabelle 7.2: Statistische Signifikanz von r bei a = 0,01. 



r 


EE = r 2 


5 


8 


StichprobengroBe N 
16 32 400 


1000 


0,90 


0,81 


n.s. 


S. 


S. 


S. 


S. 


S. 


0,35 


0,12 


n.s. 


n.s. 


n.s. 


n.s. 


S. 


S. 


0,12 


0,01 


n.s. 


n.s. 


n.s. 


n.s. 


n.s. 


S. 


0,08 


0,006 


n.s. 


n.s. 


n.s. 


n.s. 


n.s. 


n.s. 
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Die Schlusse, die aus den in den o.a. Tabellen enthaltenen Informationen zu 
ziehen sind, konnen ungeachtet der jeweils benutzten Teststatistik Gultigkeit 
fur alle Signifikanztests beanspruchen: 

1. 1st ein Ergebnis statistisch signifikant geworden, bedeutet dies lediglich, daB 
ein uberzufalliger experimenteller Effekt im Experiment aufgetreten ist. 20 ) 
Wie groB dieser ist, kann durch die statistische Signifikanz nicht festgestellt 
werden. 

2. Jeder beliebig kleine EE kann ungeachtet seiner i nhaltl i chen Bedeutung 
statistisch „signifikant gemacht" werden (Kleiter, 1969, 150f.), indem man 
eine genugend groBe Stichprobe benutzt. Unter sonst gleichen Bedingungen 
ist die statistische Signifikanz ausschlieBlich von der StichprobengroBe ab- 
hangig. Die Beispiele, die etwa Nunnally (1960), Bakan (1966), Meehl 
(1967), Kleiter (1969) und Cowles (1974) angeben, belegen, daB diese Bezie- 
hung in der Praxis offenbar sehr wohl bekannt ist und eingesetzt wird, weil 
aus noch anzusprechenden Grunden signifikante Resultate die einzig er- 
wunschten Ausgange von Signifikanztests darstellen (vgl. hierzu Abschnitt 
7.4.1). 

3. Je kleiner ein EE ist, desto groBer muB der Stichprobenumfang N sein, um 
diesen EE als statistisch signifikant ausweisen zu konnen. 

4. Je kleiner ein EE ist, desto geringer ist unter sonst gleichen Bedingungen die 
Teststarke 1 - |3, wie zwar nicht den o.a. Tabellen, wohl aber den Gute- 
funktionen zu entnehmen ist. Eine Erhohung der Teststarke ist dann uber 
die Erhohung des Signifikanzniveaus und/ Oder des Stichprobenumfanges 
moglich Oder aber durch die Wahl eines anderen Versuchsplanes und/ Oder 
A uswerteverfahrens. 

Die weiteren Beziehungen mag sich der interessierte Leser selbst ableiten. Wir 
wollen uns statt dessen im folgenden kurz der Frage zuwenden, warum der 
statistischen Signifikanz gemeinhin eine uberragende Bedeutung beigemessen 
wird. 



7.4.1 Forschungs- und Publikationspraxis 1: Signifikanzniveau und p-Werte 

Bei Durchsicht psychologischer Fachzeitschriften wird man sehr leicht feststellen kon- 
nen, daB bei der Darstellung von empirischen Resultaten meist weder von einer Irr- 
turnswahrscheinlichkeit a noch von der Moglichkeit eines Fehlers 2. Art die Rede ist. 
Statt dessen findet man sog. ,, p-Werte", die die Wahrscheinlichkeit des gefundenen und 
aller (noch) weiter von H 0 abweichenden Resultate unter der Voraussetzung angeben, 
daB die H 0 zutrifft. Diese p-Werte werden nach der Berechnung des empirischen 



20 ) Das Auftreten eines EE ist nicht an die statistische Signifikanz gebunden. Wie 
Flays (1963, 326) im einzelnen darlegt und begrundet, stellt das vollige Fehlen eines EE 
in der Empirie eine Ausnahme dar. 
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Wertes der benutzten Teststatistik entsprechenden Tabellen (etwa Pearson & Hartley, 
1954, 1972; Fisher & Yates, 1963) entnommen und entsprechen im Grunde einem 
„gleitenden Signifikanzniveau". Sie werden dann ungeachtet geringfugiger Unterschie- 
de bei einzelnen Autoren i. a. nach folgendem Schema „beurteilt" - vgl. dazu Harnatt 
(1975, 603), Krause & Metzler (1978, 225), Bortz (1979, 146) und Haagen & Seifert 
(1979, 203): 

p = 0,1 ,,bedeutet": ,,symptomatische Abweichung"; 21 ) 

p = 0,05 ,,bedeutet": ,,signifikante Abweichung", oft nur durch einen Stern („*") 

gekennzeichnet; 

p = 0,01 ,,bedeutet": ,,sehr" Oder ,,hoch signifikante Abweichung", meist durch 
zwei Sterne („**") symbolisiert; 

p = 0,001 ,,bedeutet": ,,aufterst" Oder ,,hochst signifikante Abweichung", abgekurzt 
durch drei Sterne („***.“) angegeben. 

Wie Rosenthal & Gaito (1963, 1964) sowie Beauchamp & May (1964) experi mentel I 
glaubhaft machen konnten, ist das (subjektive) Vertrauen in die Ergebnisse von Signifi- 
kanztests um so grafter, je kleiner die nachtraglich ermittelten p-Werte sind. 

Diese Interpretation der Wahrscheinlichkeiten bestimmter extremer Ereignisklassen 
unter Gultigkeit der statistischen Null-Hypothese ist dabei nicht ausschlieftlich charak- 
teristisch fur die untersuchten ,, graduate students" und ..Ph.D.'s" (Rosenthal & Gaito, 
1963, 33; Beauchamp & May, 1964, 272), sondern auch fur Herausgeber von Zeit- 
schriften. Offenbar ist namlich die Chance, daft ein Artikel, der eine statistische Aus- 
wertung via Signifikanztest enthalt, zur Publikation akzeptiert wird, um so grafter, je 
kleiner der ermittelte p-Wert ist - man vergleiche hierzu insbesondere die durch die 
einfluftreiche Arbeit von Bakan (1966) bekannt gewordene sog. ..Herausgeber-Philoso- 
phie" von A. Melton (1962), der im Zeitraum von 1951-1962 das .Journal of Experi- 
mental Psychology" herausgab. 

Melton stellt dabei keine Ausnahmeerscheinung, sondern eher einen ..typischen" Ver- 
treter fur die weitverbreitete Fehlinterpretation des nachtraglich bestimmten p-Wertes 
dar, wie u.a. durch die (kritischen) Publikationen von Sterling (1959), Cohen (1962, 
1965), Smart (1964), Bakan (1966), Skipper, Guenther & Nass (1967), Labovitz (1968), 
Bozarth & Roberts (1972) sowie Schulman, Kupst & Suran (1976) im einzelnen doku- 
mentiert wird. 

Auf die nicht zu unterschatzenden Folgen dieser offenbar unausrottbaren Fehlinterpre- 
tation der statistischen Fehlerwahrscheinlichkeit a beim H ypothesentesten als Maft fur 
die Grbfte Oder inhaltliche Bedeutsamkeit eines experi mentel I en Effektes haben neben 
den o. gen. Autoren insbesondere Bredenkamp (1972, 51-73), Greenwald (1975), 
Lane & Dunlap (1978) sowie Rosenthal (1979) eindringlich hingewiesen. 

Besonders bemerkenswert ist bei diesem Phanomen allerdings, daft diesen speziellen 
Interpretationen durch die Darstellungen in vielen Einfuhrungslehrbuchern zur Stati - 
stik und/ Oder von renommierten Autoren entschieden Vorschub geleistet wird; Beispie- 

21 ) Anstelle des in der Literatur gebrauchlichen Ausdrucks ..Abweichung" benutzen 
wir in dieser Arbeit die Bezeichnung „experi mentel I er Effekt". 
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lefur diese Behauptung finden sich u.a. in Bredenkamp (1972, 57), Harnatt (1975, 
600f.) sowie Haagen & Seifert (1979, 202f., 243); sieheferner auch Guttman (1977, 
91 f.) und Bortz (1979, e.g. 143). 



7.4.2 Forschungs- und Publikationspraxis II: Experi mentel I e Effekte 
und Teststarke 

Aufgrund der Ausfuhrungen im vorangegangenen Abschnitt und der unzurei- 
chenden Beachtung, die der Teststarke (und den experi mentel len Effekten) in 
der uberwiegenden Mehrzahl der Lehrbucher gewidmet wird 22 ) nimmt es 
nicht wunder, daB ublicherweise Angaben uber die Teststarke (und den EE) 
nicht publiziert werden, obwohl dies fur die EE von einigen Zeitschriften- 
Herausgebern bereits gefordert wird (vgl. Bredenkamp & Feger, 1970; ferner 
Lane & Dunlap, 1978; Soderquist & Hussian, 1978). 

Allerdings laBt sich die Teststarke im Rahmen von statistischen Reanalysen fur 
zahlreiche experi mentel I e Anordnungen und Auswerteverfahren auch nach der 
Datenerhebung und -auswertung noch bestimmen, weil sie bei vorgegebenem 
Signifikanzniveau a, fester StichprobengroBe N und bekannter Stichproben- 
verteilung ausschlieBlich von der GroBe des EE in den erhobenen Daten ab- 
hangt (s.o.; zur Bestimmung des EE aus den Daten siehe Abschnitt 9.3.2.3 
und 9.4). Diese Tatsache haben sich zahlreiche Autoren zunutze gemacht und 
die Teststarke fur publizierte Daten und Experimente analysiert, die in ver- 
schiedenen Bereichen der psychologischen Forschung und einigen verwandten 
Gebieten wie etwa der Kommunikationsforschung durchgefuhrt worden sind 
- vgl. u.a. Cohen (1962, 1965, 1973 b), Brewer (1972), Katzer & Sodt (1973), 
Chase & Tucker (1975), Kroll & Chase (1975), Chase & Baran (1976), Chase 
& Chase (1976), Schmidt, Hunter & Urry (1976), Treiber (1977), Treinies 
(1977) sowie Cascio, Valenzi & Silbey (1978, 1980). Diesen Arbeiten laBt sich 
ubereinstimmend entnehmen, daB in der Mehrzahl der reanalysierten Unter- 
suchungen die Teststarke 1 - (3 (sehr) gering war. 

Als weiteres Resultat der genannten Reanalysen ist bemerkenswert, daB die in 
den Experimenten aufgetretenen experi mentel len Effekte fast durchgangig nur 
„klein" gewesen sind - ein kleiner EE entspricht etwa einem Wert von 0,01 in 
den Tabellen 7.1 und 7.2 (vgl. zu naheren Einzelheiten die Abschnitte 10.3.3.2 



22 ) Einer der Grunde hierfur mag darin zu suchen sein, daB derjenige der bedeutenden 
Statistiker, der die heutzutage praktizierte Form der statistischen Inferenz wohl am 
starksten gepragt hat, R. A. Fisher, dieses Konzept strikt ablehnte. Er schrieb dazu in 
seinem Werk „The design of experiments" (1935, 1951, 17): ,,The notion of an error of 
the so-called .second kind', due to accepting the null hypothesis »when it is false« . . . 
has no meaning with respect to simple tests of significance, in which the only available 
expectations are those which flow from the null hypothesis being true." 
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und 11.1.3). Wegen der erwahnten Beziehung zwischen der Teststarke und 
dem EE (S.O. und Abschnitt 7.4) ist dieser Befund nicht verwunderlich. Ange- 
merkt sei noch, daB die publizierten EE fast ausnahmslos als statistisch signifi- 
kant beurteilt worden waren. 

Solange die GroBe eines aufgedeckten experimentellen Effektes unter aus- 
schlieBlicher Verwendung des (nachtraglich bestimmten) p-Wertes ,,beurteilt“ 
wird, kann die Bedeutung der einzelnen empirischen Befunde filr die zu prii- 
fende wissenschaftliche Hypothese nicht abgeschatzt werden, und vor diesem 
Hintergrund muB der folgenden Aussage von Guttman (1977, 92) im Prinzip 
zugestimmt werden: ,,No one has yet published a scientific law in the social 
sciences which was developed, sharpened, or effectively substantiated on the 
basis of tests of significance." 



7.4.3 Forschungs- und Publikcitionspraxis III: Entwicklung einer vorlaufigen 
Zielvorstellung 

Aus unseren bisherigen Ausflihrungen geht u.a. hervor, daB von den vier 
Determinanten eines jeden Signifikanztests sowohl das Signifikanzniveau a als 
auch die Teststarke 1 - (3 vom E selbst zu kontrollieren und damit vor einem 
Experiment festzulegen sind; m.a.W. muB der E jeweils angeben, wie groB 
seine maximale Bereitschaft ist, einen Fehler 1. und einen Fehler 2. Art zu 
begehen. 

Folgt der E diesem Vorgehen, ist der Ausgang des Signifikanztests nur noch 
von der tatsachlichen GroBe des EE und dem Stichprobenumfang N abhangig. 

Nun ist der Stichprobenumfang N in der Praxis meist eine GroBe, die sich 
nach der Anzahl der jeweils (ad hoc) zur Verfugung stehenden Untersu- 
chungseinheiten (Vpn) ergibt (siehe u.a. Smart, 1966; Higbee & Wells, 1972; 
Oakes, 1972). Aus dieser Tatsache ergeben sich die folgenden Probleme (vgl. 
auch Teil 4): 

(1) Wenn die StichprobengroBe i.a. nach dem ,,Kriterium“ der Bereitwilligkeit 
und Verfugbarkeit der Vpn fixiert wird, ist die GroBe des bei vorgegebe- 
nen Hochstwerten filr a und (3 im Experiment entdeckbaren EE vom E 
nicht kontrollierbar. Es sollte jedoch deutlich geworden sein, daB es gerade 
die Grofie des EE ist, der die besondere Aufmerksamkeit des E gelten 
muB, denn diese GroBe stellt einen wesentlichen Bestandteil der Interpre- 
tation der experimentellen Daten im Hinblick auf die wissenschaftliche 
Hypothese dar (vgl. zu Einzelheiten insbesondere Teil 11). 

Man kann sich diesen Zusammenhang auf einer intuitiven Basis verdeutlichen, indem 
man sich iiberlegt, daB eine WH,,, die fur eine spezifische Versuchsanordnung einen EE 
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in der GroBenordnung r 2 =0,60 vorhersagt 23 ), wesentlich „attraktiver" ist als eine 
konkurrierende Hypothese WH V zur Erklarung des gleichen Phanomens, die aber nur 
einen EE der Grower 2 =0,10 erwarten laBt. DieWH u ist attraktiver, weil siegroBere 
Anteile der Datenvarianz „aufzuklaren" vermag und damit auch genauere Vorhersagen 
ermoglicht als die konkurrierende WH V . Dieser Aspekt ist sowohl im Hinblick auf das 
Ziel einer moglichst genauen und sparsamen wissenschaftlichen Erklarung empirischer 
Sachverhalte von Bedeutung als auch fur die Ableitung von technologischen Prognosen 
(siehe dazu Teil 5) und wurde bei ausschlieGlicher Betrachtung der statistischen Signifi- 
kanz weitestgehend unbeachtet bleiben. Anzumerken ist hierbei noch, dal5 dem EE 
auch dann eine zentrale Bedeutung zukommt, wenn die psychologische Hypothese 
keine quantitativen Prognosen zulaftt, weil auch in diesem Fall festgestellt werden 
kann, wieviel Datenvarianz sie im Vergleich zu konkurrierenden Hypothesen ,,auf- 
klart" - siehe dazu im einzelnen Teil 9. 

Diese Ausfuhrungen legen insgesamt nahe, zusatzlich zu den maximalen Feh- 
lerwahrscheinlichkeiten a und |3 als weiteres Kriterium auch noch den erwarte- 
ten experimentellen Effekt als M indesteffekt (EEM) festzulegen und unter 
Benutzung der Teststarkefunktionen die StichprobengroBe so zu bestimmen, 
dal$ dieser EEM auch mit der vorgegebenen Teststarke im Experiment ent- 
deckt wird, sofern er tatsachlich vorhanden ist. Im Teil 10 werden wir Strate- 
gien vorstellen, die die Bestimmung des Stichprobenumfanges nach diesen 
Kriterien ermoglichen, und im Teil 11 werden wir darauf eingehen, auf welche 
Arten man zu Festlegungen des EEM gelangen kann. 

Wenden wir uns zunachst jedoch dem zweiten Problem zu, das sich aus be- 
stimmten ublichen Praktiken ergeben kann: 

(2) Die zur Verfugung stehenden Vpn liefern in der Regel keine Daten, die 
man als zufallige Stichprobe im oben definierten Sinne auffassen kann. 
Welche Rechtfertigung gibt es angesichts dieser Tatsache fur den Einsatz 
von Signifikanztests? 

Obwohl wir diese Frage erst im Abschnitt 8.2.6 behandeln werden, wollen wir 
im folgenden Abschnitt 7.5 einige zu ihrer Beantwortung relevante Vorinfor- 
mationen zusammentragen, indem wir u.a. auf Signifikanztests eingehen, de- 
ren valider Einsatz nicht an die Voraussetzung von Zufallsstichproben gebun- 
den ist. Des weiteren sprechen wir dort Tests an, deren Anwendung insgesamt 
an schwachere Voraussetzungen gebunden ist, als dies bei den bisher ange- 
sprochenen Verfahren (wie t-, % 2 - und F-Test) der Fall ist; die Kenntnis be- 
stimmter Eigentumlichkeiten dieser sog. „nicht-parametrischen und vertei- 
lungsfreien" Verfahren ist fur verschiedene nachfolgende Ausfuhrungen von 
besonderem Interesse. 



23 ) Quadrierte Korrelationen (r 2 ) sind, wie wir im Teil 9 noch sehen werden, spezielle 
MaBe fur experimentelle Effekte (vgl. auch Abschnitt 7.4). 
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7.5 Arten statistischer Hypothesen und ihre Prufung 

Neben den bereits eingefuhrten Differenzierungen zwischen einer statistischen 
Null- und einer Alternativhypothese (siehe Abschnitt 7.2 und 7.3) sowie zwi- 
schen einfachen und zusammengesetzten Hypothesen (Abschnitt 7.3.1) sind 
weitere Unterscheidungen zu beachten, auf die wir im folgenden eingehen 
wollen. 



7.5.1 Gerichtete und ungerichtete Hypothesen und ihre Prufung 

Eine „gerichtete statistische Hypothese" legt eine Ordnung fur die zu verglei- 
chenden Parameter test; sie spezifiziert die „Richtung" eines Unterschiedes 
etwa wie folgt: 



Hj: p,! < \x 2 Oder Hj: m — p 2 < 0. 



Dagegen sagt eine „ungerichtete statistische Hypothese" nur etwas uber Un- 
terschiede zwischen Parametern in beliebiger Richtung aus, etwa in dieser 
Form: 



Hj: Pi |x 2 Oder Hj: pij - y , 2 ^ 0. 



Diesen H ypothesenarten entsprechen unterschiedliche wissenschaftliche Hy- 
pothesen; auf die Implikationsbeziehungen gehen wir im Abschnitt 8.1 naher 
ein. 

Von der Art und Weise, wie eine statistische Hypothese formuliert wird, muB 
unterschieden werden, wie sie aufgrund der zur Verfugung stehenden Stich- 
probenverteilungen gepruft wird, namlich entweder „einseitig" Oder „zwei- 
seitig". 

Diese Termini beziehen sich darauf, ob an beiden „Enden" („Seiten") einer 
Stichprobenverteilung je ein Rejektionsbereich definiert wird (zweiseitiger 
Test) Oder nur an einem „Ende" (einseitiger Test) (vgl. u.a. Edwards, 1971, 
109-112; Hays, 1977, 369-374; Bortz, 1979, 150-152). 

Ein einseitiger Test fuhrt dabei unter sonst gleichen Bedingungen eher zur 
Ablehnung der gepruften H 0 als ein zweiseitiger Test. Allerdings ist nur eine 
begrenzte Anzahl von statistischen Verfahren verfugbar, die dem Experimen- 
tator die Wahl zwischen einem Oder zwei Ablehnungsbereichen ermoglichen; 
zu diesen zahlen etwa die Binomial -Tests und der t-Test. Besteht die Wahl- 
moglichkeit bzgl. des Rejektionsbereiches, werden gerichtete statistische Hy- 
pothesen adaquat unter Verwendung einseitiger Tests gepruft - vgl. Ab- 
schnitt 8.1.2. In manchen Fallen bestimmt (leider) das gewahlte Testverfahren, 
ob der E einen Oder zwei Rejektionsbereiche festlegen kann. 
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So eignet sich die F-Verteilung zwar zur Beurteilung von gerichteten Hypo- 
thesen uber Varianzen (vgl. Hays, 1977, 445-447); dagegen konnen mit dem 
gebrauchlichen Varianz- resp. regressionsanalytischen F-Test nur ungerichtete 
Hypothesen uber M ittelwerte resp. quadrierte multiple Korrelationskoeffi- 
zienten gepruft werden 24 ) - zu weiteren Einzelheiten siehe etwa Wainer 
(1972, 1973) und Gaito (1977a). 

uber die verschiedenen Arten, statistische Hypothesen zu formulieren und statistisch 
zu prufen, ist es im AnschluB an eine Arbeit von Marks (1951) zu einer langandauern- 
den kontroversen Diskussion gekommen, deren seinerzeit vorlaufiger SchluBpunkt von 
Kaiser (1960) gesetzt wurde. Diese und weitere Originalarbeiten haben Lieberman 
(1971) und Steger (1971) zusammengestellt; einen uberblick uber die Diskussion geben 
auch Glass & Stanley (1970, 288f.); ferner siehe Shaffer (1972) und Gibbons & Pratt 
(1975). 



7.5.2 Parametrische und nicht-parametrische H ypothesen und ihre Prufung 

Formuliert man statistische Hypothesen uber die Parameter von Populations- 
verteilungen, spricht man von ,,parametrischen Hypothesen", wobei davon 
ausgegangen werden muB, daB die Population durch eine endliche Menge 
dieser Parameter charakterisiert werden kann (vgl. Menges, 1972, 296); Bei- 
spiele fur derartige Hypothesen finden sich in den Abschnitten 6, 7.2 und 7.3. 

Formuliert man dagegen Hypothesen uber ganze Verteilungen, ohne diese 
durch Parameter naher spezifizieren zu konnen, handelt es sich um „nicht- 
parametrische Hypothesen"; ein Beispiel ware etwa: H 0 : F,(Y) = F 2 (Y), d.h. 
die abhangige Variable Y hat in den beiden in Frage stehenden Populationen 
die gleiche Verteilungsfunktion; zu den Einzelheiten siehe etwa Kendall & 
Stuart (1961, e.g. 161f.) und Menges (1972, 325-328). 

Die Prufung parametrischer Hypothesen erfolgt ublicherweise uber „vertei- 
lungsgebundene" Testverfahren, die in der Regel „parametrische" Tests ge- 
nannt werden. Das Adjektiv „verteilungsgebunden" bezieht sich dabei auf die 
Tatsache, daB die Stichprobenverteilungen der entsprechenden parametrischen 
Teststatistiken wie t, x 2 und F nur unter der Voraussetzung ableitbar sind, daB 
die Populationsverteilungen der moglichen Rohwerte eine genau spezifizierte 
Form aufweisen, die allerdings bei der Hypothesenformulierung in der Praxis 
nur selten expliziert wird. Zur Ableitung der genannten Statistiken muB die 
Population der Rohwerte durch eine ..normal" genannte Dichte-Funktion be- 
schreibbar sein (zu Einzelheiten siehe etwa Hays, 1977, Kap. 8 bis 11). Sobald 
diese Annahme nicht aufrecht erhalten werden kann, ist - genau genommen 
- die Anwendung der parametrischen Tests nicht mehr valide - zur Relati- 
vierung dieser Aussage siehe jedoch unten Abschnitt 8.2. 

1 4 ) Auf die Bedeutung dieser Aussge kommen wir im Abschnitt 8.2 zuruck. 
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Gegen die Berechtigung dieser Annahme sind verschiedentlich starke Beden- 
ken geauBert worden (u.a. Bradley, 1968, 1972, 1977; Menges, 1972, 248f.). 
Dies hat zur Entwicklung der sog. „verteilungsfreien" Oder „nicht-parametri- 
schen" Testverfahren gefuhrt, deren valide Anwendung an weniger strenge 
Oder keine Annahmen uber Populationsverteilungen gebunden ist. Das Adjek- 
tiv „nicht-parametrisch" bezieht sich dabei auf die statistischen Hypothesen 
uber Verteilungsfunktionen, die adaquat mittels nicht-parametrischer Tests 
uberpruft werden. Die Bezeichnung „verteilungsfrei" dagegen soil darauf hi n- 
deuten, daG die Ableitung der Stichprobenverteilung der jeweiligen Teststati- 
stik unter Gultigkeit der H 0 unabhangig von spezifischen Annahmen uber die 
Population(en) erfolgt (vgl. zur Unterscheidung neben der unten im Abschnitt 
7. 5.3.2 genannten Literatur etwa McSweeney & Marascuilo, 1969; sowie 
McSweeney & Katz, 1978). Allerdings konnen bestimmte Hypothesen auch 
mit nicht-parametrischen Tests nur gepruft werden, wenn man bereit ist, An- 
nahmen bzgl. der Populationsverteilung(en) zu treffen, etwa die, daG zwei 
Oder mehr Verteilungen symmetrisch Oder sogar von gleicher Form („homo- 
mer") sind - siehe dazu Edgington (1965), Lienert (1973, 107), Marascuilo & 
McSweeney (1977, 269, 334). Die aus einer WH abgeleitete Hypothese uber 
die Rangordnung von Mittelwerten Oder Medianen bspw. kann verteilungsfrei 
nur gepruft werden, wenn man die Symmetrie der zugrundeliegenden Vertei- 
lungen annimmt. Ist man nicht bereit Oder in der Lage, derartige Annahmen 
zu akzeptieren, erlaubt die Ablehnung einer verteilungsfrei gepruften H 0 meist 
nur die Aussage, daG die untersuchten Stichproben Populationen mit verschie- 
denen Verteilungsfunktionen entstammen. 

Die Ableitung der Stichprobenverteilungen erfolgt bei den meisten nicht-para- 
metrischen Testverfahren aufgrund vglw. einfacher kombinatorischer und 
wahrscheinlichkeitstheoretischer Uberlegungen. Dies wird besonders deut- 
lich, wenn man als Untergruppe der verteilungsfreien Verfahren zur Prufung 
nicht-parametrischer Hypothesen die sog. „Randomisierungstests" betrachtet. 

Bei ihnen erhalt man bspw. die Prufverteilung der interessierenden Statistik, indem 
man alle moglichen Permutationen („Randomisierungen") Oder Zufallsanordnungen 
der empirisch erhobenen Daten herstellt und fur jede dieser Anordnungen den Wert der 
betr. Statistik errechnet. Auf diese Weise kann eine Haufigkeitsverteilung der Werte 
der Statistik konstruiert werden, aus der wiederum die relativen Haufigkeiten interes- 
sierender extremer Ereignisklassen ermittelt werden. Sind diese bestimmt, verlauft die 
statistische Signifikanzbeurteilung nach dem im Abschnitt 7.2 skizzierten Verfahren. 
Bzgl. der Einzelheiten verweisen wir auf Kempthorne (1955), Fisher (1956), Scheffe 
(1959, 291-330), McHugh (1963), Edgington (1964b, 1969b), Ray (1966), Bradley 
(1968, Kap. 4) sowie Pfanzagl (1978, 142-147, 150-153); zur Kritik dieses Ansatzes 
siehe etwa Witte (1980, 122f.). 

Ein wesentlicher Nachteil der Permutations- Oder Randomisierungstests besteht in dem 
fast stets enormen Rechenaufwand, den es erfordert, aus alien moglichen Permutatio- 
nen der Daten die uberhaupt moglichen Realisierungen der Teststatistik zu berechnen 
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(vgl. Edgington, 1964b, 447). Als Ausweg empfiehlt es sich, statt aller moglichen 
Permutationen der Rohwerte lediglich die Permutationen der Range zu betrachten, die 
man den Rohwerten zuweisen kann. Auf diesem Prinzip beruhen die gebrauchlichsten 
verteilungsfreien Verfahren wie die Rangtests nach Wilcoxon, Mann und Whitney, 
Friedman sowie Kruskal und Wallis (vgl. dazu Lienert, 1973; Marascuilo & McSwee- 
ney, 1977). 25 ) 

Weitere Vereinfachungen im Gebrauch der Randomisierungstests ergeben sich, wenn 
man die gebrauchlichen parametrischen Verfahren als approximative Randomisierungs- 
tests interpretiert (vgl. Edgington, 1966, 1973; A If & Abrahams, 1972, 1973; Breden- 
kamp, 1972, 28-33). Diese Interpretation ist dann vertretbar, wenn der Nachweis 
gelingt, dal$ die aus alien Permutationen der Daten eines beliebigen Experiments bere- 
chenbaren Werte der gewahlten Teststatistik approximativ den entsprechenden theore- 
tischen (kontinuierlichen) Stichprobenverteilungen folgen. Dieser Nachweis ist fur den 
t-Test und verschiedene Varianz- und kovarianzanalytische F-Tests in der Tat gelungen 
(vgl. zusammenfassend Scheffe, 1959, 291-330; ferner Baker & Collier, 1966, 1968; 
Collier & Baker, 1966; Toothaker, 1971, 1972; sowie Robinson, 1973a, b). 

Da fur die valide Anwendung von Randomisierungstests nur die Forderung erfullt sein 
muG, dal$ die Untersuchungseinheiten den experimentellen Bedingungen zufallig zuge- 
teilt worden sind, nicht jedoch, daB sie Zufallsstichproben darstellen, ergeben sich aus 
diesen Befunden wesentliche Konsequenzen bzgl. der Berechtigung parametrischer 
Tests, auf die wir im Abschnitt 8.2.6 eingehen. 



7.5.3 Zur Wahl zwischen parametrischen und n i cht- parametri schen Verfahren 

Aufgrund des bisher Gesagten konnte der Eindruck entstehen, als lage die 
Entscheidung zwischen den unterschied lichen Arten der Hypothesenformu- 
lierung und -prufung ausschlieBlich beim E, zumal aus der WH fast stets 
parametrische wie nicht-parametrische Hypothesen ableitbar sind. Dieser Ein- 
druck ware jedoch falsch. 

Vielmehr sind die folgenden iibergeordneten Entscheidungsgesichtspunkte 
von zentraler Bedeutung: 

(1) Eine Voraussetzung fur die sinnvolle Interpretation der empirischen Resul- 
tate besteht darin, daB sowohl die statistischen Hypothesen wie das Aus- 
wertungsverfahren dem Skalenniveau der empirischen AV angemessen 
sind (vgl. Abschnitt 2.4). Wir stellen in den folgenden Abschnitten 7.5.3.1 
bis 7.5.3.3 einige Hinweise auf adaquate Auswertetechniken in Abhangig- 
keit vom Skalenniveau der AV zusammen. 

25 ) Ein anderer Ausweg besteht darin, eine Zufallsstichprobe von Werten der Statistik 
zu ziehen, aufgrund derer man zur Bestimmung der relativen Haufigkeit bzw. Wahr- 
scheiniichkeit der Resultatsklasse von Ereignissen gelangt, die das eine tatsachliche 
Resultat enthalt; man spricht dann von „approximativen Randomisierungstests" (Ed- 
gington, 1964b, 1969a, b, 152-157; Bredenkamp, 1972, 30f.). 
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(2) Hat man sich fur eine parametrische Hypothese entschieden, ist zu beach- 
ten, daB die entsprechenden Tests in der Regel auf (sehr) restriktiven An- 
nahmen beruhen, von denen wir die der normal verteilten Rohwerte in den 
Populationen bereits angesprochen haben; genauere Einzelheiten zu dieser 
und den ubrigen Voraussetzungen sowie zu den Konsequenzen ihrer Ver- 
letzung finden sich im Abschnitt 8.2. 

(3) Unter dem Kriterium der Strenge einer Prufung ist es wichtig, sich mit der 
Effizienz der nicht-parametrischen im Vergleich zu den parametrischen 
Testverfahren zu befassen - dies geschieht im Abschnitt 7.5.4. 

Befassen wir uns zunachst mit der Wahl von Tests in Abhangigkeit vom Ska- 
lenniveau! 



7.5.3.1 Auswertung von Haufigkeitsdaten (Nominal-Niveau) 

Obwohl davon auszugehen ist, dal$ in einem Experiment relativ selten nominale (quali- 
tative, kategoriale Oder Haufigkeits-)Daten erhoben werden, geben wir hier einige 
Hinweise auf entsprechende Auswertetechniken, weil sie in der nicht-experimentellen 
Forschung vglw. haufig anzutreffen sind und weil ihr Bekanntheitsgrad bei Psycholo- 
gen recht gering zu sein scheint. 

Die Erhebung von Haufigkeitsdaten (vgl. zur eingehenderen Charakterisierung und 
Differenzierung etwa Lienert, 1973, 86f.) dient in der Regel der Uberprufung von 
Hypothesen uber die Zusammenhange zwischen qualitativen Merkmalen. Liegen der- 
artige Zusammenhange vor, auBern sie sich in unterschiedlichen Haufigkeiten Oder 
Proportionen fur einzelne Oder mehrere Merkmalskombinationen - man spricht dann 
von einer ,,statistischen Interaktion Oder Assoziation zwischen qualitativen Merkma- 
len", bei deren Vorliegen die einzelnen Merkmale nicht unabhangig voneinander sind. 

in der statistischen Null-Hypothese wird allerdings von der statistischen Unabhangig- 
keit ausgegangen, und unter ihrer Gultigkeit lassen sich erwartete Haufigkeiten Oder 
Proportionen berechnen. Zur Prufung dieser Hypothese werden haufig die Binomial- 
oder die Multinomialverteilung sowie deren Spezialfalle herangezogen, und zwar in 
Abhangigkeit davon, ob ein dichotomes Oder polytomes Merkmal vorliegt. Diese 
Wahrscheinlichkeitsverteilungen konnen unter bestimmten Voraussetzungen von der 
X 2 -Verteilung approximiert werden. 

Die Verfahren zur Auswertung nominaler Daten, die haufig in Form sog. ,,Kontin- 
genztafeln" zusammengestellt werden, haben in den letzten Jahren stark an Vielfalt 
zugenommen; einen zusammenfassenden uberblick uber diese Entwicklung, die be- 
sonders durch Arbeiten aus dem Bereich der Soziologie begunstigt wurde, findet man 
bei Meredith, Frederiksen & McLaughlin (1974) sowie besonders bei Smith (1976b). 
Daruber hinaus sind einzelne Verfahren ausfuhrlicher dargestellt etwa bei Grizzle, 
Starmer & Koch (1969), Fleiss (1973), Shaffer (1973), Goodman (1978), Upton (1978), 
Kilchler (1979) sowie Langeheine (1980); auf die weitergehenden Literaturhinweise bei 
den beiden letztgenannten Autoren sei besonders verwiesen. 

Als Parallelentwicklung zu dem Log-linearen Ansatz von Goodman (siehe zusammen- 
fassend Goodman, 1978) kann im deutschen Sprachraum die „Konfigurationsfrequenz- 




Planung und Auswertung von Experimenten 



93 



analyse" und ihre Spezialfalle von Krauth & Lienert (1973; vgl. auch Lienert, 1978) 
verstanden werden, die sich besonders zur Behandlung „klinischer Fragestellungen" 
eignet; zum Vergleich der KFA mit dem Log-linearen Ansatz siehe Krauth (1980). 

Ferner sei noch der informationstheoretische Ansatz zur Auswertung von Kontingenz- 
tabellen erwahnt, der von Kuhback und seinen Mitarbeitern entwickelt worden ist 
(siehe etwa Ku & Kuliback, 1968; Gokhale & Kuliback, 1978; ferner Adam & Enke, 
1972). 

Weitere Auswertungshinweise sind den Standard-Lehrbuchern der Statistik sowie ins- 
besondere der im folgenden Abschnitt genannten Literatur zu entnehmen. 



7.5.3.2 Auswertung von Rangdaten (Ordinal-N iveau) 

Ordinale Oder Rangdaten unterscheiden sich von nominalen Oder Haufigkeits- 
daten dadurch, daB sie eine Rangordnung reprasentieren (vgl. zu naheren 
Einzelheiten u.a. Lienert, 1973, 87-91); dies ist etwa bei Praferenzurteilen 
der Fall. Andererseits kann man metrische Daten in eine Rangreihe transfor- 
mieren. Dies ist bspw. dann notwendig, wenn infolge der Verletzung von 
Annahmen eine parametrische Hypothese durch eine nicht-parametrische er- 
setzt werden muB, die mittels eines Rangtests voraussetzungsarmer gepruft 
werden kann. Wenn man bereit ist, bestimmte Annahmen etwa uber die Sym- 
metrie der Populationsverteilungen zu akzeptieren, kann eine Flypothese uber 
Mittelwerte bspw. durch eine solche uber Mediane ersetzt werden. Die ent- 
sprechende Prufung stellt ein nicht-parametrisches Homologon der Prufung 
der Mittelwertshypothese dar, wenn ein Testverfahren gewahlt wird, das be- 
sonders sensitiv auf Lageunterschiede „anspricht"; es ist dann bspw. der t-Test 
durch den U-Test von Mann & Whitney (1947; vgl. dazu auch Berchtold, 
1979) Oder den Wilcoxon-Test (vgl. Lienert, 1973) zu ersetzen, wahrend die 
Rangvarianzanalysen nach Kruskal & Wallis (1952) und Friedman (1937) ein- 
fachen Varianzanalysen entsprechen. Wie insbesondere D'Agostino (1972) 
und Silverstein (1974) ausfuhren, sind diese Verfahren einander jeweils „asym- 
ptotisch aquivalent". 

Nahere Einzelheiten zu den bei Vorliegen einer Rangskala angemessenen Ver- 
fahren entnehme man den Buchern von Siegel (1956, 1976), Walsh (1962, 
1965, 1968), Bradley (1968), Gibbons (1971), Puri & Sen (1971), Hollander & 
Wolfe (1973), Lienert (1973, 1975, 1978), Lehmann (1975), Renn (1975), Ma- 
rascuilo & McSweeney (1977) sowie Buning & Trenkler (1978), die auch zahl- 
reiche Hinweise zur Auswertung nominaler Daten enthalten; eine zusammen- 
fassende Literatur-Ubersicht gibt Singer (1979). 

Spezielle Abhandlungen zur Gruppe der „Trendanalysen" genannten Verfah- 
ren finden sich etwa bei Ferguson (1965), Sarris (1968), Marascuilo & 
McSweeney (1967, 1977) und Bredenkamp (1971). 
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7.5.3.3 Auswertung von Intervalldaten (Intervall-N iveau) 

Die Behandlung der Verfahren, die bei Vorliegen interval I skalierter Daten 
sinnvoll und am teststarksten sind, nimmt in fast jedem Standardlehrbuch den 
breitesten Raum ein. Wir konnen uns daher an dieser Stelle darauf beschran- 
ken, nur einige derjenigen (Lehr-)Bucher anzugeben, die wertvolle Hinweise 
zur Auswertung von Experimenten geben konnen. Bei der Auswahl haben wir 
uns auch an dem Kriterium der raschen Verfugbarkeit dieser Werke orientiert. 

Die umfassendste Darstellung der verschiedensten Aspekte der Versuchsaus- 
wertung findet sich derzeit wohl in der „Verfahrensbibliothek Versuchspla- 
nung und -auswertung" von Rasch, Herrendorfer, Bock & Busch (1978); vgl. 
erganzend dazu Bliss (1967, 1970) und Bortz (1979). Weniger umfassend im 
Detail, aber starker die Verbindung zwischen Auswerteverfahren und wissen- 
schaftlicher Hypothese betonend sind u.a. Namboodiri, Carter & Blalock 
(1975), Box, Hunter & Hunter (1978) sowie Henning & Muthig (1979). uber- 
wiegend mit der Auswertung der zahlreichen „klassischen" Versuchsplane der 
Varianzanalyse befassen sich neben Winer (1962, 1971), Edwards (1971, 1980) 
und Keppel (1973) u.a. auch Lindquist (1953), Cox (1958), Cochran & Cox 
(1968), Mendenhall (1968), Kirk (1968), Myers (1972), Snedecor & Cochran 
(1972), Kempthorne (1973), Lindman (1974), Lee (1975), John & Quenouille 
(1977), Eimer (1978), Diehl (1979) und McGuigan (1979). 

Auf die Behandlung der gleichen einfachen und komplexen Designs durch 
regressionsanalytische Verfahren gehen u. a. Draper & Smith (1966), Kerlinger 
& Pedhazur (1973), Cohen & Cohen (1975), Gaensslen & Schubo (1973, 1976) 
und Moosbrugger (1978) ein. 

Die parametrischen Trendanalysen werden daruber hinaus gesondert von Gai- 
to & Turner (1963), Bredenkamp (1968), Hubert (1973), Gaito (1977b) und 
Cohen (1980) behandelt. 

Uber multivariate Testverfahren informieren Cramer & Bock (1966), Morri- 
son (1967, 1976), Bock & Haggard (1968), Rulon & Brooks (1968), Tatsuoka 
(1969, 1971), McCall (1970), Cooley & Lohnes (1971), Overall & Klett (1972), 
Gaensslen & Schubo (1973, 1976), Kerlinger & Pedhazur (1973), Finn (1974), 
Bock (1975), Cohen & Cohen (1975), Harris (1975), Woodward & Overall 
(1975), Moosbrugger (1978) sowie Bortz (1979). 

Unabhangig von der individuellen Entscheidung fur Oder gegen eine der vor- 
stehenden Arbeiten uber parametrische Hypothesentestung halten wir eine 
zusatzliche Beschaftigung mit dem Konzept der „Exploratorischen Daten- 
Analyse", wie es von Tukey (1977; vgl. auch Mosteller & Tukey, 1977) ent- 
wickelt wurde, fur gewinnbringend. 
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7.5.4 Zur Frage der relativen Effizienz 

Wenn man der Frage nachgeht, warum in der Praxis fast grundsatzlich para- 
metrische Tests den nicht-parametrischen vorgezogen werden, stoBt man auf 
zahlreiche Aspekte, unter denen man die beiden Gruppen von Verfahren ver- 
gleichen kann - entsprechende Erorterungen findet man etwa bei Siegel 
(1956, 1976), Gaito (1959b), Bradley (1968, Kap. 2, 1972) und bei Lienert 
(1973, Kap. 4); zur Kritik der Unterscheidung siehe etwa McSweeney & Ma- 
rascuilo (1969). 

Wir wollen uns hier auf einige wenige Punkte beschranken. Zum einen liegt 
die Bevorzugung daran, daB die parametrischen Verfahren vielseitiger einsetz- 
bar sind und in einigen Fallen sogar die einzige Moglichkeit zur Auswertung 
darstellen; letzteres gilt insbesondere bei der Prufung komplexer Hypothesen, 
etwa uber (varianzanalytische) statistische Interaktionen, Oder auch bei der 
Auswertung komplexer, insbesondere multivariater Versuchsplane - siehe 
hierzu im einzelnen Bradley (1968), Puri & Sen (1971, e.g. 331-337), 
McSweeney & Katz (1978) und Singer (1979). 

Zum anderen stellen die gebrauch lichen parametrischen Tests die teststarksten 
und insgesamt „besten" Tests „ihrer" Hypothesen dar, wenn alle Vorausset- 
zungen zu ihrer Anwendung erf u 1 1 1 sind (vgl. zu den Test-Gutekriterien Men- 
ges, 1972, 333-335). Unter genau dieser Bedingung haben die parametrischen 
Tests eine Effizienz von Eins, wahrend die analogen nicht-parametrischen 
Tests fast ausnahmslos 26 ) weniger effizient, d.h. - vereinfacht ausgedruckt - 
weniger teststark sind (siehe etwa Buning & Trenkler, 1978, 282). Exakte 
Definitionen der verschiedenen Arten von „(relativer) Effizienz" findet man 
bei Marascuilo & McSweeney (1977, Kap. 4) und bei Buning & Trenkler 
(1978, Kap. 9). 

Praktisch bedeutet eine geringere Effizienz, daB unter sonst gleichen Bedin- 
gungen bei Verwendung eines nicht-parametrischen Tests mehr Vpn benotigt 
werden als beim analogen parametrischen Test, um eine zutreffende Alterna- 
tivhypothese aufgrund der Stichprobendaten annehmen zu konnen. 

Sind dagegen mehrere Voraussetzungen zur validen Anwendung der parame- 
trischen Verfahren simultan verletzt, liegt deren Effizienz in der Regel be- 
trachtlich unter der der homologen nicht-parametrischen Tests - vgl. zu 
Einzelheiten Hodges & Lehmann (1956), Wetherill (1960), Pratt (1964), Renn 
(1975, 43f.), Blair, Higgins & Smitley (1980) und Hager et al. (im Druck). 



26 ) Eine der wesentlichen Ausnahmen stellen die sog. ,,N ormal-Scores-Tests" dar, die 
stets mindestens so effizient sind wie die entsprechenden parametrischen Tests (vgl. 
Bradley, 1968, Kap. 6; Lienert, 1973, 257-262; Marascuilo & McSweeney, 1977, Kap. 
11 und 12). 
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Daneben ist fur eine ganze Reihe der haufiger verwendeten nicht-parametri- 
schen Testverfahren gezeigt worden, daR ihre „relative asymptotische Effi- 
zienz" (siehe Pitman, 1948; Bradley, 1968, 56-62; Buning & Trenkler, 1978, 
275-282) selbst dann, wenn alle Voraussetzungen fur parametrische Tests 
erf u 1 1 1 sind, nicht unter einen - haufig nahe bei Eins liegenden - Minimal- 
wert absinkt (vgl. u.a. Hodges & Lehmann, 1956, und Berchtold, 1979). 

Die Werte fur die relative asymptotische Effizienz findet man insbesondere in 
den Buchern von Bradley (1968, 60f.), Lienert (1973, 1978), Marascuilo & 
McSweeney (1977, 87) sowie Buning & Trenkler (1978, 282). Diese Hinweise 
sind insofern wichtig, als die Teststarkenbestimmung sich bei den meisten 
Rangverfahren uberaus schwierig gestaltet, so daR man in diesen Fallen darauf 
angewiesen ist, diese unter Verwendung der nicht-zentralen Verteilungen der 
homologen parametrischen Tests und der MaRzahl der relativen asymptoti- 
schen Effizienz ungefahr abzuschatzen. Wie wir bereits mehrfach erwahnt 
haben, ist die Kenntnis und Kontrolle der Teststarke eine notwendige Voraus- 
setzung fur eine strenge Prufung einer WH. 



7.6 Zusammenfassung 

lm Teil 6 haben wir herausgearbeitet, daR die Prufung einer wissenschaftlichen 
Hypothese i. a. nur uber eine aus ihr abgeleitete statistische Hypothese erfol- 
gen kann. Eine der Moglichkeiten, eine statistische Hypothese zu beurteilen, 
bietet der Signifikanztest. Der vorangegangene Teil 7 diente im wesentlichen 
der Darstellung einiger Probleme, die mit der ublichen Anwendung von Signi- 
fikanztests verbunden sind und die dazu fuhren, daR die Beurteilung der WH 
haufig nicht angemessen moglich ist. 

Demzufolge wurden einige Modifikationen an der „Anwenderversion" des Si- 
gnifikanztests aufgegriffen, die auf die Kontrolle seiner Determinanten hinaus- 
laufen, und es wurde eine vorlaufige Zielvorstellung bzgl. der Anwendung von 
Signifikanztests vorgestellt, die in den Teilen 10 und 11 vertieft werden soil. 

Ferner wurde aufgezeigt, daR unterschied lichen Arten von statistischen Hypo- 
thesen auch unterschied I iche Prufverfahren entsprechen, deren valide Anwen- 
dung teils an sehr restriktive und teils an nur schwache Voraussetzungen ge- 
bunden ist. Auf die strengen Voraussetzungen zur Anwendung parametrischer 
Tests gehen wir im Abschnitt 8.2 ein, dem einige Ausfuhrungen uber die 
Beziehungen zwischen der WH und der statistischen Hypothese vorausgehen 
werden. 
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8. Storfaktoren der statistischen Validitat und ihre Ausschaltung 

Um falschliche Falsifikationen und ungerechtfertigte Bewahrungen der wis- 
senschaftlichen Hypothese zu vermeiden, mussen bei der Prufung der aus ihr 
abgeleiteten statistischen Hypothesen die Fehlerwahrscheinlichkeiten erster 
und zweiter Art moglichst gering sein (Teil 6). Alle Faktoren, die letztlich 
dazu fuhren, daB diese Fehlerwahrscheinlichkeiten a und |3 erhoht werden, 
setzen die statistische Validitat der Untersuchung herab. Wir wollen die wich- 
tigsten dieser Storfaktoren der statistischen Validitat im folgenden -wieder in 
Gruppen zusammengefaBt - besprechen und jeweils auch MaBnahmen zu 
ihrer Vermeidung erortern. Diese Storfaktoren (StatV) umfassen die u.E. 
schwerstwiegenden Fehler, die bei der statistischen Auswertung empirischer 
Untersuch ungen (insbesondere Experimente) gemacht werden konnen und 
leider auch immer wieder gemacht werden. 



8.1 Falsche statistische Hypothesen und Verfahren 

8.1.1 D ie wichtigsten Beziehungen zwischen psychologischen und statistischen 
H y pothesen 

Eine wissenschaftliche (Kausal-)Flypothese WFI kann uber die Prufung einer 
statistischen Flypothese SH falsifiziert werden, wenn zwischen ihnen eine 
logische Implikationsbeziehung besteht, d.h. wenn gilt: WFI —» SH (vgl. Teil 
6). Wir wollen jetzt verschiedene Arten von psychologischen Kausal hypothe- 
sen betrachten und dabei jeweils untersuchen, welche statistischen Flypothe- 
sen aus ihnen ableitbar sind und mit welchem statistischen Verfahren diese 
gepruft werden konnen. Aus diesen Darstellungen werden sich einige mogli- 
che Fehler ergeben, die die statistische Validitat herabsetzen (zu weiteren Ein- 
zelheiten siehe Flager & Westermann, im Druck, a). 

(1) Aus unserer Bei spiel hypothese lieB sich ableiten, daB bei Vorliegen von 
Dissonanz die Werte auf der Einstellungsvariablen hoher sind als ohne Disso- 
nanz. Aus WH U folgte deshalb eine statistische Flypothese wie H, : p 2 — fh>0. 
In dieser Beziehung ist WH U typisch fur Kausal hypothesen in der Psychologie: 
In-der Regel implizieren psychologische Kausal hypothesen gerichtete statisti- 
sche Alternativhypothesen (Bredenkamp, 1972; Flager & Westermann, im 
Druck, a). Dies hat wichtige Konsequenzen fur die Durchfuhrung von Signifi- 
kanztests (a. a.o.): Damit die ubergeordnete wissenschaftliche Kausalhypo- 
these uberhaupt falsifizierbar ist, muB man sich fur die Falschheit der statisti- 
schen Alternativhypothese (und damit fur die Richtigkeit der H 0 ) entscheiden 
konnen. Diese Entscheidung ist aber fur den Experimentator nur dann zu 
verantworten, wenn er die Wahrscheinlichkeit dafur kennt, daB diese Ent- 
scheidung falsch ist und wenn diese Fehlerwahrscheinlichkeit ihm klein genug 
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erscheint. Zur Prufung von wissenschaftlichen Hypothesen, die eine statisti- 
sche Alternativhypothese implizieren, muG also auch (3 auf einen kleinen Wert 
festgelegt werden. 

(2) LaGt sich aus einer wissenschaftlichen Hypothese nur ableiten, daG Mittel- 
wertsunterschiede in irgendeiner Richtung bestehen, folgt aus ihr eine unge- 
richtete Alternativhypothese wie H! : p, 2 — Ri^O. Wissenschaftlich durften 
solche unspezifischen Vorhersagen nur von geringem Interesse sein. 

(3) Relativ selten sind auch Kausal hypothesen, deren ausschlieGliche Aussage 
darin besteht, daG unter bestimmten Bedingungen keine Unterschiede Oder 
Veranderungen zu erwarten sind. Aus ihnen folgen einfache statistische Null- 
hypothesen wie H 0 : m - p 2 =0- 

(4) In den exakten Naturwissenschaften sind Theorien im allgemeinen so pra- 
zise formuliert, daG im Konklusionsteil („dann . . .") von Kausal hypothesen 
genaue Angaben uber den Wert einer bestimmten Variablen gemacht werden. 
Aus ihnen folgen dann statistische Null hypothesen, nach denen ein Parameter 
einen ganz bestimmten Wert hat, also z.B. H 0 : p=45. In der Psychologie sind 
solch prazise Folgerungen nur in den seltenen Fallen zu erwarten, in denen 
Theorien nicht nur verbal, sondern auch mathematisch formuliert sind (vgl. 
Restle & Greeno, 1970; Bredenkamp, 1972, 186-198; Coombs, Dawes & 
Tversky, 1975; Bredenkamp & Hager, 1979). 

In den bisher besprochenen vier Fallen impliziert die wissenschaftliche Hypo- 
these stets eine statistische Hypothese uber einen Oder zwei Mittelwerte. Kann 
man bestimmte Annahmen uber die Verteilung der Werte in den Populationen 
machen, konnen die jeweiligen statistischen Null-Hypothesen uber den para- 
metrischen t-Test gepruft werden. Kann Oder will man die Verteilungsannah- 
men nicht aufrechterhalten, sind aus der psychologischen Hypothese andere 
statistische Hypothesen (z.B. uber Mediane) abzuleiten, die uber nicht-para- 
metrische Testverfahren gepruft werden konnen. 

Als wichtiges Ergebnis unserer Uberlegungen ist festzuhalten, daB in den 
meisten Fallen der psychologischen Forschungspraxis aus der wissenschaftli- 
chen Hypothese eine gerichtete Alternativhypothese folgt, deren Prufung uber 
einen einseitigen statistischen Test erfolgen sollte. Zweiseitige Tests sind nur 
dann gerechtfertigt, wenn von der psychologischen Hypothese - ausnahms- 
weise - tatsachlich eine ungerichtete Alternativhypothese Oder aber eine ein- 
fache Null-Hypothese impliziert wird - wir kommen darauf im Teil 11 zu- 
ruck. 

Wenden wir uns nun weiteren Arten von psychologischen Hypothesen zu! 

(5) Schon haufiger als die in (4) besprochenen exakten numerischen Vorhersa- 
gen treten in der Psychologie Hypothesen auf, die ganz bestimmte funktionale 
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Zusammenhange zwischen Variablen annehmen (Beispiel: die ..psychophysi- 
schen Funktionen"). Die aus ihnen ableitbaren statistischen Nullhypothesen 
werden durch parametrische Oder nicht-parametrische Trendanalysen gepruft. 

(6) Wissenschaftliche Kausalhypothesen konnen so formuliert sein, daB sie die 
Gleichheit mehrerer Parameter implizieren; allerdings ist diese Art von Kau- 
salhypothesen in der Psychologie noch seltener anzutreffen als der unter (3) 
dargestellte Sonderfall, aus dem die Gleichheit zweier Parameter folgte. In der 
Mehrzahl der Falle handelt es sich bei den in Frage stehenden Parametern um 
M ittelwerte. Deshalb kann die statistische Null-Hypothese wie folgt angege- 
ben werden : 



H 0 : |ii = M* = •■• = M-k- 

Es handelt sich hierbei um die Null-Hypothese der parametrischen Varianz- 
analyse. Die zu ihr gehorige Alternativhypothese Hx besagt, daB zwischen 
mindestens zwei Mittelwerten ein Unterschied besteht; sie lautet also formal: 

Hj : fur mindestens ein Paar von Bedingungen X m und 

X m ', wobei gilt, daB m ¥= m'. 

Diese Art von Alternativhypothesen folgt aus psychologischen Kausalhypo- 
thesen, die unspezifisch irgendeinen Unterschied in irgendeiner Richtung vor- 
hersagen. Gerade wegen des ausgepragten Mangels an Spezifitat der Vorhersa- 
ge sind solche wissenschaftlichen Hypothesen nur von geringem Interesse. 

Insgesamt gesehen folgen also aus einer wissenschaftlichen Hypothese der 
Psychologie nur selten die Null- Oder Alternativhypothese einer Varianzana- 
lyse. Das steht im Gegensatz zur Tatsache, daB bei der groBen Mehrheit der 
veroffentlichten experimentellen Untersuch ungen die Auswertung uber para- 
metrische und nicht-parametrische Varianzanalysen erfolgt und daB die Bu- 
cher zur Versuchsplanung (..Experimental Design") uberwiegend varianzana- 
lytische Auswertungstechniken behandeln - siehe dazu die Literaturangaben 
in den Abschnitten 7.5.3.2 und 7.5.3.3. 

Man kann also davon ausgehen, daB das angewendete statistische Verfahren in 
vielen Fallen gar nicht die Information erbringt, die zur (strengen) Prufung der 
betrachteten Kausal hypothese erforderlich ist (Hager & Westermann, im 
Druck, a). 

(7) Psychologische Hypothesen und Theorien sind nur in den seltensten Fallen 
prazise genug, um die Ableitung numerischer Vorhersagen Oder Aussagen 
uber die Form funktionaler Beziehungen vornehmen zu konnen. Typischer 
fur den Entwicklungsstand der meisten psychologischen Teilgebiete sind wis- 
senschaftliche Hypothesen wie folgende Erganzung WH V zu unserer Kausal- 
hypothese WH U : „J e starker die auftretende Dissonanz ist, desto groBer ist die 
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Einstellungsanderung in Richtung auf die dissonanzerzeugende Kognition." 
Aus derartigen wissenschaftlichen Hypothesen folgt stets eine bestimmte 
Rangordnung von Mittelwerten, also z. B.: 



Hj: |x 2 < [i 3 < . . . < (i K 



mit der dazugehorigen Null-Hypothese 

H 0 : n m > |i m ' fur mindestens ein Paar m und m', mit m < m'. 

Die Planung von Experimenten zur Prufung solcher Hypothesen uber einen 
monoten Trend wirft einige schwierige Probleme auf, die wir im Abschnitt 
8.3.2 ansprechen werden. 

(8) Aus psychologischen Theorien konnen haufig Hypothesen abgeleitet wer- 
den, die einander erganzen wie die oben besprochenen WH U und WH V . In 
diesem Fall konnen beide simultan in einem einzigen Experiment uberpruft 
werden. Dazu mussen - um im Beispiel zu bleiben - eine experimentelle 
Bedingung „Keine Dissonanz" (X]) und mindestens zwei Treatments mit an- 
steigender Starke der Dissonanz (X 2 , X 3 , .... X K ) hergestellt werden. Die 
Hypothese WH U impliziert dann eine statistische Hypothese wie die folgende 
H Ki>: 

H )(1): K - 1 1(^ 2 + ^ + ••• + M’k)|> M'lf 

die Hypothese WH V dagegen impliziert die H 1(2 ): 

Hi(2j: p.2 < M-3 < . . . < Rk- 

Auf die Prufung solcher (u.U. hierarchisch geordneter) Mengen von Hypo- 
thesen gehen wir im Abschnitt 8.3.1 ein. 

(9) Lassen sich aus einer psychologischen Theorie mehrere statistische Hypo- 
thesen ableiten, die sich auf die Werte der gleichen A V unter den Auspragun- 
gen verschiedener UV beziehen, konnen diese Hypothesen uber mehrfakto- 
rielle Designs simultan uberpruft werden. Diese Designs gestatten auch die 
Prufung von Hypothesen uber die Wechselwirkung (Interaktion) der unab- 
hangigen Variablen in bezug auf die abhangige Variable. Eine statistische 
Interaktionshypothese wurde z.B. aus einer wissenschaftlichen Hypothese 
abzuleiten sein, die folgendes aussagt: „Kognitive Dissonanz fuhrt zu einer 
Einstellungsanderung in Richtung auf die Information aus einer glaubwurdi- 
gen Quelle, aber in entgegengesetzter Richtung bei Information aus einer 
unglaubwurdigen Quelle." Derartigen Interaktionshypothesen wird ein zu- 
nehmendes Interesse entgegengebracht. Auf die mit ihrer Prufung verbunde- 
nen Probleme gehen wir im Abschnitt 8.5 ein. 
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Wir haben in den neun Punkten die wichtigsten Grundformen psychologi- 
scher Kausalhypothesen dargestellt, und wir haben erortert, welche Arten von 
statistischen Hypothesen jeweils aus ihnen folgen. Ferner sind wir darauf 
eingegangen, mit welchen Verfahren die statistischen Hypothesen gepruft 
werden konnen. Aus dieser Diskussion ergeben sich unmittelbar drei mogliche 
Beeintrachtigungen der statistischen Validitat (StatV) einer Untersuchung, de- 
nen die Abschnitte 8.1.2 bis 8.1.4 gewidmet sind. 



8.1.2 Falsche Umsetzung der wissenschaftlichen in eine statistische H ypothese 
als Storfaktor (StatV) 

Die Prufung einer statistischen H ypothese SH kann nur dann der strengen 
Prufung einer wissenschaftlichen Kausalhypothese WH dienen, wenn SH tat- 
sachlich ein Implikat von WH ist. Dieser Tatbestand wird in der Forschungs- 
praxis sehr haufig nicht beachtet; dies auRert sich bspw. darin, daft eine Va- 
rianzanalyse durchgefuhrt wird, obwohl aus der psychologischen Hypothese 
statistische Hypothesen uber die Ordnung zweier Oder mehrerer Mittelwerte 
ableitbar sind (vgl. die Punkte (1), (6) und (7) im Abschnitt 8.1.1). Diese 
Vorgehensweise setzt die Strenge einer Prufung herab, wie wir am Beispiel 
aufzeigen wollen (vgl. auch Hager & Westermann, im Druck, a): Aus den im 
Punkt (7) besprochenen psychologischen Hypothesen WH U und WH V folgt 
die statistische Hypothese: 



H,: |Xi < p 2 < P3, mit H 0 : p, > p 2 und/oder p 2 S p 3 . 



Zum Vergleich: Die entsprechenden Hypothesen einer einfachen Varianzana- 
lyse lauten 



H' 0 : m = p*2 = P3 und H'j p, p 2 und/oder p 2 ^ p 3 . 

Die Alternativhypothese der Varianzanalyse umfaGt also auch „wahre" Para- 
meterverhaltnisse, die im Widerspruch zur psychologischen Hypothese stehen 
(beispielsweise pj >p 2 =p 3 ). Wird also falschlicherweise aus den zu prufenden 
wissenschaftlichen Hypothesen WH U und WH, statt der obigen H ( die Alter- 
nativhypothese einer Varianzanalyse abgeleitet, so ist (unter sonst gleichen 
Bedingungen) fur den Fall der Falschheit von WH U und WH, die Wahrschein- 
lichkeit hypothesenkontrarer Ergebnisse geringer. Durch inadequate Ablei- 
tung statistischer aus wissenschaftlichen Hypothesen wird also die Strenge des 
Prufexperiments herabgesetzt (a. a. 0.). 
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8.1.3 Falsche Auswahl der zu priifenden statistischen Hypothese 

In der Regel konnen aus einer psychologischen Hypothese mehrere statistische 
Hypothesen abgeleitet werden. Die Prufung der wissenschaftlichen Hypothe- 
se ist dann am strengsten, wenn sie uber diejenige der aus ihr ableitbaren 
statistischen Hypothesen erfolgt, bei der die Wahrscheinlichkeiten fur falsch- 
liche Bewahrungen und falschliche Falsifikationen am geringsten ist (siehe im 
einzelnen Hager & Westermann, im Druck, a). 



Verdeutlichen wir dies an zwei Beispielen! 

(1) Folgt aus der HW eine Rangordnung von M ittelwerten, ist unter sonst gleichen 
Bedingungen eine empirische Prufung um so strenger, je mehr Mittelwerte experi- 
mentell verglichen werden. 

(2) Die Prufung psychophysischer Trend hypothesen an den Daten jeder einzelnen 
Person ist strenger als eine Prufung an M ittelwerten von verschiedenen Personen - 
vgl. zu Einzelheiten Bredenkamp (1980, 12, 49f.). 



8.1.4 Falsche statistische Analyse 

Hat man aus der wissenschaftlichen Hypothese eine adaquate statistische Hy- 
pothese abgeleitet, kann die Validitat einer Untersuchung noch durch die fal- 
sche Wahl der statistischen Prufverfahren herabgesetzt werden. Dieser Fall 
tritt bspw. dann ein, wenn sich nach dem Experiment herausstellt, daft be- 
stimmte Voraussetzungen bzgl. der validen Anwendung des betr. Tests auf- 
grund der Daten nicht aufrechterhalten werden konnen, und wenn dann dieser 
Test dennoch zur Anwendung gelangt - vgl. hierzu im einzelnen Abschnitt 
8.2. Ferner werden sehr haufig statistische Tests benutzt, mit denen nur eine 
ungerichtete Alternativhypothese beurteilt werden kann, obwohl aus der WH 
eindeutig eine gerichtete Alternativhypothese folgt (siehe Abschnitt 8.1.1, 
Punkt (6)). Diese oft allerdings unvermeidl iche Verfahrensweise hat zur Folge, 
daB der Ablehnungsbereich in der einzig interessierenden Richtung um die 
Halfte zu gering gewahlt wird, wodurch zwangslaufig die Wahrscheinlichkeit 
fur einen Fehler 2. Art mehr als verdoppelt wird, wenn wir davon ausgehen, 
daB tatsachlich die aus der WH abgeleitete statistische Alternativhypothese 
zutrifft. Durch die somit insgesamt erhohten Fehlerwahrscheinlichkeiten bei 
der Entscheidung uber die statistische Hypothese wird auch die Wahrschein- 
lichkeit fur eine falsche Entscheidung uber die wissenschaftliche Hypothese 
erhoht. 

Weitere in diesem Zusammenhang mogliche Fehlerquellen ergeben sich aus 
den Ausfuhrungen in den Abschnitten 7.5, 8.2, 8.4.1 und 8.4.6; siehe ferner 
Lindquist (1953, 7f.) sowie Mosteller (1968, 122). 
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8.2 Verletzung der Annahmen bei statistischen Tests 
als Storfaktor (StatV) 

Die Fehlerwahrscheinlichkeiten bei der statistischen Hypothesenprufung und 
damit auch die Wahrscheinlichkeiten fur falsche Entscheid ungen uber das Zu- 
treffen Oder Nicht-Zutreffen der wissenschaftlichen Hypothesen konnen auch 
dadurch ansteigen, dal$ die fur die Anwendung der inferenzstatistischen Ver- 
fahren notwendigen Voraussetzungen Oder Annahmen nicht erf u 1 1 1 sind. 

Wahrend die valide Anwendung von nicht-parametrischen Auswertetechniken 
haufig nur nur an vglw. schwache Voraussetzungen gebunden ist, beruhen die 
parametrischen Tests stets auf mehreren restriktiven Annahmen resp. Voraus- 
setzungen. Wegen der bereits wiederholt angesprochenen zentralen Bedeu- 
tung, die den parametrischen Verfahren in der Praxis zukommt, wollen wir 
diese Voraussetzungen im folgenden etwas ausfuhrlicher darstellen und die 
Konsequenzen ihrer Verletzung erortern. 



8.2.1 Das Allgemeine Lineare M odell (ALM ) und die Annahmen 

Die meisten parametrischen Hypothesen, die der empirisch arbeitende Wis- 
senschaftler einer Prufung zu unterziehen beabsichtigt, beziehen sich auf Mit- 
telwerte, Varianzen und Korrelations- bzw. Regressionskoeffizienten. Die zur 
Prufung benutzten Test- Statisti ken sind in der Regel entweder t-, % 2 - Oder F- 
verteilt. 

Diese Testverfahren lassen sich allesamt aus einem einzigen grundlegenden 
Modell ableiten, dem sog. „Allgemeinen Linearen Modell" (ALM). Dieses ist 
durch die folgenden Eigenschaften zu kennzeichnen (vgl. dazu im einzelnen 
Moosbrugger, 1978, 57; ferner Fennessey, 1968, 3; Auslitz, Hesse & Rieder, 
1975, 3; Schach & Schafer, 1978, 5): 

(1) Y; = PoX 0 , + (3iX i; + . . . + [3 m X m ; + . . . + (3 K X K ; + e! 

(2) Der Mittelwert der Fehler ist in jeder der Populationen gleich Null. 

(3) Die Fehler e, sind innerhalb der experimentellen Bedingungen wie auch 
zwischen ihnen unabhangig voneinander. 

(4) Die Varianz a 2 der Fehler e ; ist in jeder der K Populationen gleich Oder 
homogen: 

o 2 — o 2 — = o 2 — o 2 

Die Merkmalsauspragung jeder Vp i auf der abhangigen Oder Kriteriumsvaria- 
blen Y, also Y,, wird im ALM also dargestellt als Summe der mit |3 k gewichte- 
ten Werte X k der unabhangigen Oder Pradiktorvariablen („EinfluRgroBen") X 
und einer ZufallsgroBe e ; , dem unsystematischen Fehler Oder Residuum. Die 
Werte X k sind (vom E) festgelegte GroBen, von denen X 0 in der Regel gleich 
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Eins ist; die „GewichtsgroBen" (3 k bezeichnen der GroBe nach unbekannte 
Parameter, die aus den Daten nach dem Kriterium der „Kleinsten Quadrate" 
zu bestimmen sind (vgl. dazu den Satz von Gauss- Markoff, etwa in Scheffe, 
1959, 13-19; Oder in Menges, 1972, 319). 

Zur Prufung von Hypothesen vor dem Hintergrund des ALM konnen zwei im 
wesentlichen formal unterschiedliche Wege beschritten werden. 

Wertet man die empirischen Daten aus K > 2 Stichproben uber einen Simul- 
tan-vergleich der K Mittelwerte aus, spricht man traditionell von einer „Va- 
rianzanalyse" (VA). (Vgl. Fisher, 1925, 1950; ferner Scheffe, 1959; Hays, 
1963, 1977; Cochran & Bliss, 1970, sowie die in Abschnitt 7.5.3 angegebene 
Literatur.) 

Bei der Prufung der Mittelwerts-Hypothese wird davon ausgegangen, daB die K Moda- 
litaten des Faktors vom E bewuBt ausgewahlt und festgelegt worden sind, daB m.a. W. 
sog. „fixierte Effekte" vorliegen (vgl. Abschnitt 2.3). Verwendet der E dagegen in 
seinem Experiment eine Zufallsstichprobe der GroBe K aus einer Population moglicher 
Abstufungen der UV, so liegen „zufal lige Effekte" vor; mit dem Experiment werden 
statistische Hypothesen gepruft, die sich auf die Varianz dieser Effekte beziehen. Wer- 
den zufallige und fixierte Effekte in einem Experiment simultan untersucht, spricht 
man von „gemischten Effekten". 

Diese Unterscheid ungen sind wichtig, weil ihnen unterschiedliche varianzanalytische 
Modelle und F-Tests entsprechen - vgl. zu Einzelheiten insbesondere Eisenhart 
(1947), Wilk & Kempthorne (1955) Oder Hays (1977, 377f.). Wir beziehen uns im 
folgenden stets auf das varianzanalytische Modell der fixierten Effekte - zur Begrun- 
dung siehe die Abschnitte 2.3 und 8.2.3. 

Pruft man dagegen Hypothesen uber (multiple) Korrelationsquadrate Rv.x k 
(resp. uber Regressionskoeffizienten |3 k ), nennt man diese Art der Auswertung 
,, Multiple Regressions- und Korrelationsanalyse" (MRA); zur formalen Un- 
terscheidung siehe im einzelnen etwa Auslitz, Hesse & Rieder (1975, 7f.) 
sowie Schach & Schafer (1978, 6). 

Die oben erwahnte VA mit fixierten Effekten ist als Spezialfall der allgemeineren (und 
im ganzen vieiseiti geren) MRA darstellbar; Einzelheiten hierzu entnehme man etwa 
Jennings (1967), Cohen (1968), Darlington (1968), Fennessey (1968), Wottawa (1974), 
Auslitz, Hesse & Rieder (1975), Schach & Schafer (1978) sowie der bereits im Ab- 
schnitt 7.53.3 genannten Literatur; zu bestimmten konzeptuellen Unterschieden siehe 
etwa Witte (1978, 1980, 172f.). 

Diese Auswerteverfahren lassen sich ihrerseits unter dem allgemeinen Modell der „Ka- 
nonischen Analyse" subsumieren, wie Knapp (1978) gezeigt hat. 

Zur validen Anwendung der o. gen. Tests und Prufverteilungen sind neben 
den bereits unter (1) bis (4) aufgefuhrten Annahmen noch die folgenden An- 
nahmen zu treffen (vgl. dazu auch Eisenhart, 1947; Cochran, 1947; Lindquist, 
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1953, 72-78; Gaito, 1959b; Scheffe, 1959, Kap. 10; Moosbrugger, 1978, 69; 
sowie einfuhrende Lehrbucher der Versuchsplanung und -auswertung): 

(5) Die Terme e ; sind in jeder der im Experiment untersuchten Populationen 
normal vertei It: 

(6) Die zu untersuchenden Rohwerte stellen Zufallsstichproben aus den inter- 
essierenden Grundgesamtheiten dar. 

Bei der Darstellung der sechs Voraussetzungen ist ein univariater einfaktoriel- 
ler Versuchsplan mit jeweils mehreren Vpn pro experimenteller Bedingung 
zugrunde gelegt worden; die Voraussetzungen beziehen sich jedoch in modifi- 
zierter und/ Oder erweiterter Form auch auf alle anderen Varianz- und regres- 
sionsanalytischen Designs. Auf Erweiterungen dieser Voraussetzungen gehen 
wir im Zusammenhang mit der Kovarianzanalyse (Abschnitt 8.4.2) und mit 
wiederholten Messungen (Abschnitt 8.4.6) ein, weil diesen Verfahren in der 
Praxis eine groBe Bedeutung zukommt; zu weiteren Einzelheiten verweisen 
wir auf einschlagige Lehrbucher - siehe dazu etwa Abschnitt 7.5.3.3. 

Diese Voraussetzungen sind zur validen Hypothesenprufung unerlaBlich. Zu 
ihnen treten noch zwei Restriktionen, die mit der Hypothesenprufung jedoch 
nicht im Zusammenhang stehen: 

(7) Die sog. „Reparametrisierungsbedingung" ist erforderlich, um zu mathe- 
matisch eindeutigen Losungen der sog. „Normalgleichungen" gelangen zu 
konnen. Sie besagt fur das varianzanalytische Modell der fixierten Effekte 
(und damit auch fur die MRA), daB - in varianzanalytischer Terminologie 
- die Summe der (einfachen) Abweichungen der Treatment-M ittelwerte 
jx k von ihrem Gesamtmittelwert u fur jeden Faktor gleich Null sein muB. 

Fur den Praktiker ist diese Restriktion meist ohne Belang, weswegen wir sie 
nicht erortern; Einzelheiten sind etwa Mendenhall (1968, Kap. 6), Searle 
(1971 a, 209-220), Glass, Peckham & Sanders (1972, 241) und Rasch et al. 
(1978, 65-67) zu entnehmen. 

(8) Die empirische AV soil mindestens interval I skaliert sein, damit die Ergeb- 
nisse der parametrischen Auswertung uber eine VA Oder MRA sinnvoll 
interpretierbar sind - siehe dazu Abschnitt 2.4. 

Im Zusammenhang mit den sechs Voraussetzungen wollen wir im folgenden 
jeweils drei Fragen nachgehen: 

Wie konnen diese Voraussetzungen gepruft werden? 

Ist eine derartige Prufung notwendig und/ Oder sinnvoll? 

Welche Konsequenzen ergeben sich bei Verletzung der jeweiligen Vorausset- 
zung? 
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8.2.2 A ddi ti vitat 

Im Rahmen der auf dem ALM basierenden Auswertetechniken und insbeson- 
dere der „klassischen" VA wird der Terminus „Additi vitat" in zwei Bedeutun- 
gen benutzt (vgl. u.a. Gaito, 1959b; Lee, 1961; Glass, Peckham & Sanders, 
1972; Henning, 1978). 

(1) Zum einen bezieht er sich auf die additive Verknupfung der Komponenten, 
die jeden einzelnen Rohwert konstituieren; etwa: 

(8.1) Y ik = |X k + P k + e ik (einfaktorielle VA) 

= (3 0 +PA + e lk (regressionsanalytische Darstellung); 

Oder fur den Fall einer univariaten bifaktoriellen Versuchsanlage mit zwei 
UV A und B sowie einer AV Y: 

(8.2) Y ijk = \x + b k + a, + (a|3) jk + e ijk 

— ( 3 o + PiXi + P2X2 + P3X1X2 + £ijk 

(In der varianzanalytischen Darstellung, die in den jeweils oberen Zeilen der 
Gleichungen (8.1) und (8.2) gewahlt wurde, kennzeichnen die (3 k den Popula- 
tionseffekt zu Lasten der Treatment-Modal itat B k , also (3 k = p k - p; in den 
jeweils unteren Zeilen derselben Formeln bezeichnen die |3 k die Populations- 
Regressions- bzw. Gewichtskoeffizienten (vgl. detaillierter etwa Fennessey, 
1968; Searle, 1971 a; Wottawa, 1974; Gaensslen & Schubo, 1976; Moosbrug- 
ger, 1978; Henning, 1978; Henning & Muthig, 1979).) 

Die Regressionskoeffizienten (3 k treten in den drei angegebenen grundlegenden 
Gleichungen stets nur in der 1. Potenz auf, weswegen man vom „Allgemeinen 
Linearen Modell" spricht. Die GroBen X k konnen dabei in jeder beliebigen 
Potenz Oder multiplikativen Verknupfung auftreten; hierdurch wird die Form 
der sog. ..Response Surface" (auch: ..Response Curve") bestimmt - siehe 
dazu Box (1968), Bliss (1970, 427-433), John (1971, Kap. 10), Snedecor & 
Cochran (1972, 346-358) und John & Quenouille (1977, Kap. 9). 

Die (wichtige) Unterscheidung zwischen der Modellform, die die Linearitat 
der Y ;k als Funktion der unbekannten Regressionsgewichte (3 k postuliert (Men- 
denhall, 1968, 55), und der Bedeutung der & fur die Response Curve resp. 
Surface wird nicht immer beachtet, wie der Artikel von Brown (1975) zeigt; 
vgl. zu dieser Unterscheidung im einzelnen Mendenhall (1968, 51-55) und 
Henning (1978). 

Die gebrauchlichen additiven Model Igleichungen reprasentieren dabei das ein- 
fachste Prinzip, nach dem man sich empirische Scores Y ik zusammenge- 
setzt denken kann. Es muB sich dabei nicht immer auch gleichzeitig um das 
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beste Oder auch nur um ein adaquates Prinzip handeln, wie bereits Fisher & 
MacKenzie (1923, 315) ausgefuhrt haben. uber andere, allerdings kaum ge- 
brauchliche Moglichkeiten informieren etwa Searle (1971 a, 75 f.), Glass, Peck- 
ham & Sanders (1972, 240f.) sowie Namboodiri, Carter & Blalock (1975, 
279f .). 

Die Angemessenheit dieser Art von Modellgleichung ist im konkreten Einzel- 
fall ebenso wenig empirisch prufbar wie die entsprechende Modellannahme im 
Rahmen der klassischen Testtheorie (vgl. dazu Lord & Novick, 1968; Fischer, 
1974; Kranz, 1979; Wottawa, 1980). 

(2) In mehrfaktoriellen Planen spricht man daneben dann haufig von „Additi- 
vitat", wenn der Term (a|3) ik Oder (3 3 X 1 X 2 aus Formel (8.2) sowie alle 
Interaktionsterme hoherer Ordnung gleich Null sind (vgl. Elston, 1961; 
Namboodiri, Carter & Blalock, 1975, 279-285). In bestimmten Ver- 
suchsanordnungen ist die Annahme, daft alle Interaktionsterme in den 
Populationen gleich Null sind, notwendig, um die interessierenden experi- 
mentellen Effekte auf statistische Signifikanz prufen zu konnen (vgl. dazu 
neben Abschnitt 8.4.3 auch Wilk & Kempthorne, 1957; Scheffe, 1959, 
Kap. 5; Winer, 1971, 398f., 696f.; daruber hinaus weitere Lehrbucher der 
Versuchsplanung und -auswertung). 

Diese Art der Additi vitat ist haufig einer statistischen Prufung zuganglich. In 
den Fallen, in denen eine von der Interaktion unabhangige Fehler- und Prufva- 
rianz bestimmt werden kann (bspw. im Zufallsgruppenversuchsplan; vgl. dazu 
Abschnitt 3.3.2), erfolgt die Prufung der Interaktion (oder Additivitat) auf 
statistische Signifikanz unter Verwendung eben dieser Fehlervarianz. Fur eini- 
ge der Versuchsplane, in denen die die Interaktion enthaltende Residualvarianz 
die PrufgroRe darstellt, sind spezielle Testverfahren zur Prufung der Additivi- 
tatsannahme entwickelt worden (Tukey, 1949; Johnson & Graybill, 1972). 
Die Leistungsfahigkeit dieser Tests ist u.a. von Hegemann & Johnson (1976) 
untersucht worden; Hinweise auf die Anwendungsbereiche finden sich etwa in 
den Arbeiten von Scheffe (1959, 130-134), Bliss (1967, 324-330, 451-465), 
Winer (1971, 394-397, 473-478), Bortz (1979, 398-400). 

Ergibt die Anwendung eines dieser Testverfahren ein signifikantes Resultat, 
das fur das Vorliegen von N icht-Add iti vitat Oder das Vorhandensein einer 
Interaktion spricht, wird eine spezifische Voraussetzung fur die Signifikanz- 
prufung im Rahmen der o. gen. Plane uber die F-Verteilung verletzt. 

Als Ausweg wird in diesem Fall von zahlreichen (Lehrbuch-)Autoren empfoh- 
len, die numerischen Werte der nicht-linear derart zu transformieren, daft die 
Wechselwirkung (Interaktion Oder N icht-Add iti vitat) eliminiert wird - siehe 
z.B. Edwards (1971, 191f.) und Winer (1971, 398). 
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Dieser Empfehlung konnen wir uns nicht anschlieBen - zur Begrundung 
siehe Abschnitt 8.2.4 .2 sondern halten in der genannten Situation alternati- 

ve Auswerteverfahren fur eher angemessen - vgl. dazu Abschnitt 7.5.3. 



8.2.3 N ormal vertei I u n g der M odellresiduen (Fehler) 

In der Varianz- und Regressionsanalyse wird unter „Fehler" derjenige Anteil 
am Score einer Vp verstanden, der in beliebiger Richtung vom Mittelwert der 
Gruppe abweicht, Oder: der ubrigbleibt, wenn den Daten eines Treatments ein 
bedingungsspezifischer Wert („fit") angepaBt worden ist. Formal kann man 
fur den einfachsten Fall etwa schreiben: 

(8.3) Fehler = Residuum = beobachteter Wert - angepaBter Wert. 

Inhaltlich wird unter diese Fehler alles das subsumiert, was nicht auf den 
EinfluB der UV(n) zuruckgefuhrt werden kann, also insbesondere individuelle 
Unterschiede (Personlichkeitsmerkmale, -variablen; vgl. Herrmann, 1973, 
1976) und ggf. MeBfehler (vgl. dazu Cochran, 1968b, 1970; Lord & Novick, 
1968); es sei erganzend nur angemerkt, daB gerade diese sog. Fehler unter 
anderen Fragestellungen der Gegenstand des Forschungsinteresses sind (siehe 
Herrmann, 1976). Wir gehen auf die eher inhaltlichen Aspekte der Fehlerter- 
me nicht weiter ein, sondern verweisen auf die speziellen Arbeiten von Under- 
wood (1957, Kap. 4 und 5), Cox (1961), Lord & Novick (1968), Cochran 
(1968b), Elashoff (1968), Mosteller (1968), Bredenkamp (1969a), Namboodi- 
ri, Carter & Blalock (1975, Kap. 12 und 13) sowie Henning & Muthig (1979, 
e.g. 35-37, 105-107). 

Die Normalverteilung der individuellen Fehlerterme e ; in den einzelnen 
Populationen wird im Grunde vorausgesetzt, weil die Klasse von ..normal" 
genannten mathematischen Funktionen Eigenschaften aufweist, die zu Ablei- 
tungen von „bestechender Eleganz" (Menges, 1972, 248) und Einfachheit fuh- 
ren; zu weiteren Grunden siehe Menges (a. a.o.). Bspw. sind Mittelwert p 
und Varianz o 2 dieser Verteilung stochastisch unabhangig voneinander (Geary, 
1936), weswegen sich die Ableitung der Stichprobenverteilung des Mittelwerts 
M und der Varianz S 2 vglw. problemlos gestaltet (vgl. Hays, 1977, Kap. 8 
und 11). 

Die bekannteren der zur Prufung der N ormal itatsannahme entwickelten Tests 
lassen sich grab in zwei Gruppen einteilen (vgl. dazu Rasch, Enderlein & 
Herrendorfer, 1973, Kap. 6), namlich in Tests fur die Anpassungsgute (dazu 
u.a. Hays, 1977, Kap. 17; Bortz, 1979, 191-194) und in Tests fur die Kenn- 
werte „Schiefe" („skewness") und „ExzeB" („kurtosis") (dazu u.a. Gebhardt, 
1966; Schmidtke & Jager, 1976). 
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Die angesprochenen und verschiedene weitere, in der Literatur empfohlene 
Testverfahren sind in Simulationsstudien etwa von Shapiro, Wilk & Chen 
(1968) sowie von Saniga & Miles (1979) untersucht worden - auf diese Arbei- 
ten und die dort enthaltenen Literaturangaben sei verwiesen. 

Wir gehen auf diese Verfahren zur Priifung der Normalverteilungsannahme 
nicht im einzelnen ein, da ihre routinemaBige Anwendung aus (mindestens) 
zwei Grunden kontraindiziert scheint. 

Zum einen sind die entsprechenden Tests meist selbst abhiingig von bestimm- 
ten Voraussetzungen oder Annahmen (vgl. etwa Box, 1953; Scheffe, 1959, 
362; Gaensslen & Schubo, 1976, 58f.). 

Zum anderen muB in fast jedem Fall mit einem signifikanten Resultat gerech- 
net werden, das fUr bedeutsame Abweichungen der Modellresiduen von der 
Normalitat spricht, weil es nur wenige Grlinde zu der Vermutung gibt, daB die 
Fehler sich exakt nach der ,, normal" genannten Funktion verteilen: , .Normali- 
ty is a myth: there never was, and never will be, a normal distribution." 
(Geary, 1947, 241) 

Wie Menges (1972, 249) ausfiihrt, trifft diese Feststellung nicht notwendiger- 
weise den ,,Kern der Dinge": . . denn nicht nach der Existenz der Normal- 

verteilung ist sinnvoll zu fragen, sondern nach deni Typ von empirischer 
Situation, fur die das Modell, das sie reprasentiert, eine gute Approximation 
liefert." Demnach ist es zweckmaBig, die ubliche Frage ,,Are normal theory 
ANOVA assumptions met?" durch eine andere zu ersetzen, namlich ,,How 
important are the inevitable violations of normal theory ANOVA assump- 
tions?" (Glass, Peckham & Sanders, 1972, 237). 

Die auf eine ,,Ja-Nein-Antwort“ abzielende Frage wird also durch eine ersetzt, 
die nach der (qualitativ stufbaren) ..Robustheit" der gebrauchlichen parametri- 
schen Testverfahren fragt. Der Fachausdruck ,, Robustheit" geht auf Box 
(1953, 318) zurlick und bezeichnet die ,,Unempfindlichkeit (eines Testverfah- 
rens) gegeniiber Abweichungen von den postulierten Modellannahmen" (vgl. 
Btining & Trenkler, 1978, 296). 

In Abschnitt 7.5.2 hatten wir angesprochen, daR die Normalverteilung der 
Fehler eine der Voraussetzungen zur Ableitung der Stichprobenverteilungen 
von t, x 2 und F darstellt. Ist diese Voraussetzung nicht erfullt, resultieren 
Verteilungen dieser Teststatistiken, die von den tabellierten zentralen und 
nicht-zentralen Verteilungen abweichen. Dies bedeutet, daB die tatsachlichen 
Wahrscheinlichkeiten fur bestimmte Resultatsklassen nicht mehr mit den in 
den Tabellen angegebenen ubereinstimmen, m.a. W. weichen die tatsachlichen 
Werte fur a und (3 von den festgesetzten nominellen Werten ab. Ein Test ist 
demnach robust, wenn unter Verletzung einer Oder mehrerer Voraussetzungen 
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die tatsachlichen Werte fur a und (3 „nicht wesentlich" von den nominellen 
abweichen - vgl. zum Versuch der quantitativen Definition von Robustheit 
die instruktive Arbeit von Bradley (1978); zum Hinweis auf einige Probleme 
beim ausschlieBlich qualitativen Robustheitskonzept siehe u.a. Buning & 
Trenkler (1978, 296f.) und Hager, Lubbeke & Hubner (im Druck). 

Zur Beantwortung der Frage nach der Robustheit der klassischen parametri- 
schen Teststatistiken t, y_ 2 und F unter Abweichung der Verteilung der Modell- 
residuen von der Normalitat sind zahlreiche Untersuch ungen durchgefuhrt 
worden (vgl. bereits Pearson, 1931; zusammenfassend Cochran, 1947; Lind- 
quist, 1953, 78-90; Gaito, 1959b; Scheffe, 1959, Kap. 10; Bradley, 1968, 
24-43; Glass, Peckham & Sanders, 1972; daruber hinaus im einzelnen u.a. 
Tiku, 1971; Kemp & Conover, 1973; Bevan, Benton & Myers, 1974; Feir- 
Walsh & Toothaker, 1974; Havlicek & Peterson, 1974; Lee, Desu & Gehan, 
1975; Pearson & Please, 1975; Bowman, Beauchamp & Shenton, 1977; Po- 
sten, 1978; Trachtman, Giambalvo & Dippner, 1978; Bradley, 1980a, b, c; 
Blair, Higgins & Smitley, 1980). 

Diese Studien an einfachen univariaten Versuchsplanen enthalten eine Fulle 
von Hinweisen darauf, daB die o.a. parametrischen Teststatistiken uber einen 
weiten Bereich der Abweichungen von der Normalitat der Fehlerverteilungen 
in den untersuchten Populationen robust sind, sofern sie zur Prufung von 
Hypothesen uber Mittel werte Oder quadrierte Korrelationsquadrate herange- 
zogen werden (Modell der fixierten Effekte). Bei diesen Tests kann in aller 
Regel davon ausgegangen werden, daB die tatsachlichen Raten fur Fehler 1. 
und 2. Art nicht nennenswert von den a priori spezifizierten nominellen Wer- 
ten abweichen. Allerdings ist eine Quantifikation dieser Aussage etwa sensu 
Bradley (1978) u.E. derzeit noch nicht moglich, da die Befunde im Detail noch 
kein einheitliches Bild ergeben (siehe auch Buning & Trenkler, 1978, 296). 

Im einzelnen ist mit U berschreitu ngen der nominellen Fehlerwahrscheinlich- 
keiten bei , , brei tg i pf I i gen " („platykurtischen") Verteilungen zu rechnen, bei 
denen sich die Daten in den beiden Extrembereichen haufen; sehr ausgepragt 
sind diese Abweichungen bei Stichproben aus L-formigen Populationen, wie 
sie anscheinend Reaktionszeiten oft zugrundeliegen - siehe hierzu ausfuhrlich 
Bradley (1968, 1977, 1978, 1980a, b, c). 

Mit U nterschreitu ngen der nominellen Fehlerwahrscheinlichkeiten muB haufig 
bei „spitzgipfligen" (Jeptokurtischen") Verteilungen gerechnet werden. Ab- 
weichungen von der Symmetrie der Verteilungen wirken sich i. a. vornehmlich 
bei einseitigen Signifikanztests aus. 

Komplexe Versuchsplane sind bislang nicht in der gleichen Ausfuhrlichkeit 
und Systematik untersucht worden wie einfache Designs, weswegen die Ro- 
bustheit von F und t fur diese Falle noch nicht beurteilbar ist. 
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Im Rahmen des varianzanalytischen Modells der zufalligen Effekte wird die 
Annahme normal-verteilter Treatment- Effekte gemacht, und der F-Test pruft 
eine Null-Hypothese bzgl. der Varianz dieser Effekte. Bei diesem Test haben 
insbesondere Abweichungen von der die Treatment- Effekte betreffenden 
Normal itatsannahme schwerwiegende Konsequenzen bzgl. der tatsachlichen 
Fehlerwahrscheinlichkeiten - vgl. hierzu etwa Lehmann (1968, 45), Glass & 
Stanley (1970, 462) sowie Hays (1977, 540f.). 

Ublicherweise wird dann, wenn vermutet wird Oder bekannt ist, daB die Feh- 
ler a in den Populationen nicht normal-verteilt sind, alternativ eine der beiden 
folgenden Empfehlungen gegeben: 

1. Anwendung von nicht-parametrischen Verfahren. 

Im AnschluB an unsere Erorterungen zu diesen Verfahren im Abschnitt 
7.5.3.2 schlieBen wir uns dieser Empfehlung unter der Voraussetzung an, 
daB die Abweichungen von der Normalitat sehr ausgepragt sind Oder aber 
daB auBer der Normal itatsannahme noch mindestens eine weitere Voraus- 
setzung nicht erf u 1 1 1 ist. 

2. Anwendung von Transformationen, die die Stichprobendaten „normalisie- 
ren". Dieser Empfehlung konnen wir uns nicht anschlieBen - zur Begrun- 
dung siehe Abschnitt 8.2.4.2. 



8.2.4 Homogenitat der Fehlervarianzen in den Populationen 

Eine weitere Voraussetzung fur die valide Anwendung von F-Tests besteht in 
der Annahme der Varianzhomogenitat, die besagt, daB die Modellresiduen in 
alien untersuchten Populationen gleiche (homogene) Varianzen aufweisen 
mussen. 

Die Auswirkungen von Verletzungen dieser Voraussetzung auf das Verhalten 
der parametrischen Teststatistiken ist ebenfalls sehr ausfuhrlich untersucht 
worden; entsprechende Zusammenfassungen der theoretischen und empiri- 
schen Resultate geben Cochran (1947), Scheffe (1959, Kap. 10), Lindquist 
(1953, 78-90), Box (1954a, b), Glass, Peckham & Sanders (1972); neuere 
Untersuch ungen sind durchgefuhrt worden von Brown & Forsythe (1974a), 
Kohr & Games (1974), Feir-Walsh & Toothaker (1974), Ekbohm (1976), 
Keselman, Rogan & Feir-Walsh (1977), Havlicek & Peterson (1974), Howell 
& Games (1973), Rogan & Keselman (1977) und Hager et al. (im Druck). 

Diesen Studien laBt sich entnehmen, daB in den meisten Fallen Varianzhetero- 
genitat tolerabel ist hinsichtlich der interessierenden tatsachlichen Werte fur 
die Fehlerwahrscheinlichkeiten 1. und 2. Art, sofern die StichprobengroBen 
fur al le Bedingungen gleich sind. Nennenswerte Ausnahmen von dieser allge- 
meinen Aussage sind nur unter sehr extremen Bedingungen zu erwarten (vgl. 
Box, 1954a; Scheffe, 1959, 340; Rogan & Keselman, 1977). 
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Sind dagegen die Fehlervarianzen wie auch die Stichprobenumfange ungleich, 
ist generell mit starkeren Abweichungen der realen von den nominellen Feh- 
lerwahrscheinlichkeiten zu rechnen (vgl. die o. a. Literatur). 

Liegt dieser Fall vor, empfiehlt sich die Verwendung alternativer Testverfah- 
ren, etwa nicht-parametrischer (Abschnitt 7.5.3) Oder spezieller parametri- 
scher, auf die wir anschlieBend kurz eingehen werden. Zunachst wollen wir 
jedoch die Frage zu beantworten suchen, wie Varianzheterogenitat festgestellt 
werden kann und ob dies sinnvoll ist. 

Zur Prufung einer Flypothese bzgl. der Gleichheit von Varianzen sind speziel- 
le Testverfahren u.a. von Bartlett (1937), Hartley (1950) und Cochran (1951) 
entwickelt worden. Diese Verfahren sind jedoch ihrerseits empfindlich gegen- 
uber Verletzungen der Normalverteilungsannahme - siehe dazu Pearson 
(1931), Box (1953), Scheffe (1959, 83-87), Levene (1960), Overall & Wood- 
ward (1974), Levy (1975a, 1978a) sowie den vorangegangenen Abschnitt. 

Diese Tatsache hat zu einer Fulle von Versuchen gefuhrt, Homogenitatsprufungen fur 
Varianzen zu entwickeln, die robust sind gegenuber Abweichungen von der Normalitat 
(e.g. Box, 1953; Scheffe, 1959, 83; Levene, 1960; Glass, 1966; Leslie & Brown, 1966; 
Miller, 1968; Gartside, 1972; Layard, 1973; Brown & Forsythe, 1974c; Talwar & 
Gentle, 1977; O’Brien, 1978, 1979). 

Die verschiedentlich angestellten Simulationsuntersuchungen zu den Testverfahren 
(vgl. Pearson, 1966; Games, Winkler & Probert, 1972; Hall, 1972; Layard, 1972; 
Brown & Forsythe, 1974c; Levy, 1975c, d, 1978a; Martin, 1976; Church & Wike, 
1976; Martin & Games, 1977; Talwar & Gentle, 1977; O'Brien, 1978; Samiuddin, 
Hanif & Asad, 1978; Games, Keselman & Clinch, 1979a, b) haben zu recht unter- 
schiedlichen Empfehlungen gefuhrt, welches der Verfahren im konkreten Fall anzu- 
wenden sei, und zwar in Abhangigkeit von der untersuchten Verteilung der Rohwerte 
in den Populationen. Da diese dem E ublicherweise nicht bekannt ist, ist uns eine 
explizite Empfehlung fur einen bestimmten Varianzhomogenitatstest an dieser Stelle 
nicht moglich. 

Es kann lediglich festgestellt werden, daB die routinemaBige Verwendung des 
in vielen Lehrbuchern der Versuchsplanung und -auswertung empfohlenen 
Tests nach Bartlett (1937) sicherlich nicht indiziert ist. Im Grunde scheint uns 
die Empfehlung, uberhaupt auf routinemaBige Tests zur Prufung der Varianz- 
homogenitat zu verzichten, sofern die Stichprobenumfange gleich groB sind, 
am ehesten der Mehrzahl der Falle angemessen zu sein - zur Begrundung 
dieser Aussage siehe die Erorterungen und Befunde von Horsnell, 1953; Box, 
1953; Scheffe, 1959, 340f.; Young & Veldman, 1963; Glass, Peckham & San- 
ders, 1972, 242-246; Howell & Games, 1973; Kohr & Games, 1974; Havli- 
cek & Peterson, 1974. 

Fur den Fall, daB die Stichprobenumfange ungleich sind und eine Prufung der Varianz- 
homogenitat notwendig scheint, mag man eines der Verfahren auswahlen, die in den 
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groferen der genannten Studien wiedergegeben und untersucht worden sind, also etwa 
bei Gartside (1972), Games, Winkler & Probert (1972), Hall (1972), Brown & Forsythe 
(1974c), Church & Wike (1976), Martin & Games (1977), O’Brien (1978). Zur Ver- 
wendung dieser Tests im Falle eines mehrfaktoriellen (varianzanalytischen) Versuchs- 
planes findet man einige wesentliche Hinweise etwa bei Overall & Woodward (1974), 
O’Brien (1978, 1979) und Games, Keselman & Clinch (1979b); zur Frage der An- 
schluBtests nach einem signifikanten generellen Oder , .Overall "-Test und der damit 
verbundenen Probleme orientiere man sich bei Levy (1975a, b), Games (1978a, b) 
sowie bei Games, Keselman & Clinch (1979a). 

Ergeben diese Prufungen, dal5 Varianzheterogenitat vorliegt, ist bei gleichzei- 
tigem Vorliegen von ungleichen Stichprobenumfangen von der Verwendung 
der Teststatistiken F und t abzuraten. 



8.2. 4.1 Zur Frage des Prufverfahrens bei Varianzheterogenitat 

Das Problem, welches Verfahren im Falle ungleicher Varianzen bei der Prufung von 
Hypothesen uber Mittelwerte aus zwei normal verteilten Populationen angemessen ist, 
wurde erstmals von Behrens (1929) und wenig spater von Fisher (1935) zu Ibsen ver- 
sucht; man findet daher oft in diesem Zusammenhang die Bezeichnung ,, Behrens- 
Fisher-Problem". Die erste den Praktiker befriedigende Losung dieses Problems wurde 
von Welch (1947, 1949, 1951), Aspin (1948, 1949) sowie James (1951) vorgeschlagen; 
weitere Losungsansatze findet man bei Scheffe (1970) sowie Mehta & Srinivasan (1970) 
zusammengestellt und diskutiert. Das Welch-James-Verfahren kann deshalb als eine 
,, befriedigende Losung fur den Praktiker" apostrophiert werden, weil die von Aspin 
(1948, 1949), Trickett & Welch (1954), Trickett, Welch & James (1956) (vgl. auch 
Pearson & Hartley, 1962, Tab. 11) erarbeiteten Tabellen sehr genau uber die t-Vertei- 
lung approximiert werden konnen, deren Freiheitsgrade ,,adjustiert" worden sind - 
vgl. hierzu insbesondere Wang (1971); auch die Teststarke dieses Verfahrens kann im 
Vergleich zum F-Test als durchgangig gut bezeichnet werden, wie Golhar (1972) und 
Levy (1978 b) sowie Hager, Lubbeke & Hubner (im Druck) gezeigt haben. 

Empirische Vergleiche des von Welch, James und Aspin empfohlenen Tests mit ande- 
ren zur Losung des Behrens-Fisher-Problems vorgeschlagenen Verfahren mittels Simu- 
lationsstudien sind u.a. von Brown & Forsythe (1974b), Kohr & Games (1974), Ek- 
bohm (1976), Levy (1978c, d), Keselman, Games & Rogan (1979a) angestellt worden. 
In diesen Studien konnte sich der hier empfohlene Test durchaus bewahren. 

Um so unverstandlicher ist es daher, dal$ er nicht wesentlich starker in Standardlehrbu- 
chern berucksichtigt wird; die fur Psychologen wohl besten Darstellungen des Testver- 
fahrens nach Welch, James und Aspin finden sich in Li (1964, 435-438), Winer (1971, 
41-44), Rasch, Enderlein & Herrendorfer (1973, 80), ClauB & Ebner (1978, 213f.) 
sowie Pfanzagl (1978, 216f.). 

Wichtig ist die abschlieBende Bemerkung, dal5 das empfohlene Verfahren auch fur die 
Prufung von mehr als zwei Mittelwerten, also auch fur varianzanalytische Hypothesen, 
Verwendung finden kann (James, 1951; Welch, 1951; Brown & Forsythe, 1974a). 
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Neben dem parametrischen Test nach Welch et al. kann in den Fallen, in denen Va- 
rianzheterogenitat gepaart mit ungleichen StichprobengroBen auftritt, selbstverstand- 
lich ein nicht-parametrisches Verfahren zur Anwendung kommen. Daruber hinaus ist 
auf diese Gruppe von Verfahren zuruckzugreifen, wenn mehr als eine der Vorausset- 
zungen verletzt ist, weil in diesen Fallen starke Abweichungen von den nominellen 
Fehlerwahrscheinlichkeiten resultieren. Zum Vergleich der parametrischen Teststatisti- 
ken mit ihren nicht-parametrischen Analoga orientierte man sich im einzelnen bei 
Boneau (1962), Neave & Granger (1968), Kemp & Conover (1973), Feir-Walsh & 
Toothaker (1974), Lee, Desu & Gehan (1975), Keselman, Rogan & Feir-Walsh (1977), 
Blair, Higgins & Smitley (1980) und bei Hager et al. (im Druck). 



8. 2. 4. 2 Zur Bedeutung von Transformationen 

Zum Herstellen der Normalverteilung, zur Elimination von N icht-Additi vitat (statisti- 
schen Interaktionen) und zur ,,Stabilisierung" der Fehlervarianzen, d.h. Herbeifuh- 
rung der Varianzhomogenitat, werden nicht-lineare Transformationen der die Stich- 
probendaten generierenden Zufallsvariablen bereits seit geraumer Zeit vorgeschlagen, 
wie die Zusammenfassung von Bartlett (1947) ausweist - siehe ferner die einschlagigen 
Lehrbucher der Versuchsplanung und -auswertung. 

Eine Systematisierung der verschiedenen mdglichen Transformationen hat Lienert 
(1962) geleistet; weitere zusammenfassende Darstellungen finden sich bei Tukey (1949, 
1957), Box & Cox (1964), Draper & Hunter (1969), Box & Tiao (1973, Kap. 10), 
Hoyle (1973), Schlesselman (1973), Smith (1976a) sowie Henning (1978). 

Nur wenige Autoren nehmen eine kritische Haltung gegenuber Transformationen ein. 
Games & Lucas (1966) bspw. haben in Simulationsstudien gefunden, dal$ Transforma- 
tionen zur Herstellung von normal verteilten Stichprobendaten nur selten zum ge- 
wunschten Ziel, namlich validen Aussagen uber Wahrscheinlichkeiten, fuhren (siehe 
auch Glass, Peckham & Sanders, 1972) und stellen fest: „ln general, the use of a clearly 
interpretable scale of measurement certainly should be the dominant consideration" 
(Games & Lucas, 1966, 326). Es ist insbesondere die Schwierigkeit der i nhaltl i chen 
Interpretation der (nicht-linear) transformierten Werte, die auch andere Autoren (e. g. 
Scheffe, 1959, 365-367; Digman, 1966, 475; Lindman, 1974, 35; Namboodiri, Carter 
& Blalock, 1975, 286) zu ahnlichen Empfehlungen gelangen lassen. Fur uns ist ein 
anderer Grund von mindestens gleichrangiger Bedeutung, wenn wir dazu raten, auf 
nicht-lineare Transformationen zu verzichten: Ist die theoretische AV ein metrischer 
Begriff und mul$ fur die empirische AV deshalb Intervallskalenniveau angestrebt wer- 
den, sind ausschlieBlich lineare Transformationen zulassig. Hat die empirische AV nur 
Ordinalskalenniveau, sind die hier betrachteten parametrischen Testverfahren nicht 
sinnvoll anwendbar, weil sich die Ergebnisse dieser Tests unter erlaubten und will kur- 
lich mdglichen monotonen Transformationen der empirischen AV andern konnen (vgl. 
hierzu Abschnitt 2.4). 

Eine ganz ahnliche Argumentation findet sich auch bei Henning (1978), der eine der 
wenigen Arbeiten verfaBt hat, die die Transformationen sowohl unter mathematischen 
als auch unter meBtheoretischen Aspekten untersuchen; seine zusammenfassende und 
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vertiefende Erorterung der bei Datentransformationen moglichen Probleme sei dem 
I nteressi erten empfohlen. Die Darstellung der wesentlichen Gedanken dieser Arbeit 
findet sich auch in Henning & Muthig (1979, 205-213). 



8.2.5 U n abhan gi gkeit der Fehlerterme 

Die statistischen Fehler Oder Residuen als nicht auf die systematische Bedin- 
gungsvariation zuruckfuhrbare Komponenten von empirischen Scores konnen 
auf verschiedene Arten voneinander und von anderen Komponenten abhangig 
sein. 

Bei den folgenden Darstellungen bezeichnen wir mit e s und e s - (s =A s') zwei 
unterschiedliche Fehlerkomponenten und mit m und m' (m V= m') zwei ver- 
schiedene Treatmentbedingungen. 

(1) Innerhalb eines Treatments m soil die Korrelation R zwischen alien mogli- 
chen Paaren von Fehlertermen gleich Null sein: R(e sm e s - m ) = 0; zur 
Berechnung siehe etwa Snedecor & Cochran (1972, 294f.). 

Korrelierte Fehler innerhalb einer experimentellen Gruppe konnen etwa ent- 
stehen, wenn bei der Zuweisung der Vpn zu den Treatments wissentlich Oder 
unwissentlich nach einer bestimmten Systematik verfahren wird, so daR sich 
die Vpn innerhalb einer Experimentalgruppe sehr ahnlich verhalten. 

(2) Zwischen je zwei experimentellen Bedingungen soil die (Inter-)Korrelation 
zwischen alien moglichen Paaren von Fehlern gleich Null sein: 

R(e sm . e s ’ m -) = 0. 

In der Regel fuhren (unkontrollierte Oder Stor-)Bedingungen, die gemeinsam mit einer 
bestimmten Realisation der UV auftreten, zu einer Konfundierung von Variablen, die 
auch die Unabhangigkeit der Fehler zwischen zwei beliebigen Treatments beeintrach- 
tigt. Da hierbei der Einfluft der experi mentel I untersuchten UV nicht mehr von den 
Storbedingungen getrennt werden kann, liegt auch eine Verletzung der internen Validi- 
ty vor. 

Wird bei Vorliegen von korrelierten Fehlern der unter (1) und (2) beschriebenen Art ein 
F-Test durchgefuhrt, so sind im Falle des Vorliegens von positiven Korrelationen zu 
viele falschl ich signifikante Resultate zu erwarten, weil der Erwartungswert der Test- 
statistik F unter Gultigkeit der H 0 grafter ist als df N /(df N - 2). Im seltener vorliegenden 
Fall von negativen Korrelationen ist dagegen mit einer ungerechtfertigt erhdhten An- 
zahl von nicht-signifikanten Ergebnissen in F-Tests zu rechnen, weil der Erwartungs- 
wert von F unter H 0 kleiner als 1 werden kann. Nahere Einzelheiten hierzu finden sich 
u.a. in Cochran (1947), Glass & Stanley (1970), Snedecor & Cochran (1972), Keppel 
(1973), Lissitz & Chard os (1975) sowie Hays (1977). 
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Insgesamt ist festzuhalten, daG der F-Test nicht robust ist, wenn die Annahme 
der unabhangigen Fehlerterme nicht erf u 1 1 1 ist. Daher ist es unabdingbar, die 
beiden unter (1) und (2) angesprochenen Abhangigkeiten zwischen Fehlerter- 
men zu vermeiden. Dies ist zu erreichen, indem man die Vpn zufallig auf die 
Untersuchungsbedingungen verteilt - siehe Box (1954b), Bliss (1967, 340), 
Bredenkamp (1969a, 338), 0chran & Bliss (1970, 45-47). Ferner muG der E 
dafur Sorge tragen, daG die Werte der AV innerhalb jeder und zwischen alien 
experimentellen Gruppen unabhangig voneinander erhoben werden (konnen). 
Hieraus folgt nicht, daG keine Gruppenexperimente mehr durchgefuhrt wer- 
den sollten; die Forderung nach Unabhangigkeit bezieht sich auf die Werte der 
AV, die der statistischen Analyse unterzogen werden - vgl. zur weiteren 
Erorterung des Unterschiedes zwischen „experimentellen Einheiten" und 
„Einheiten der statistischen Analyse" etwa Glass & Stanley (1970, 501-508) 
sowie Abschnitt 3.3.2. 

Die in diesem Abschnitt erfolgtesehr kurze Darstellung einiger der wesentlichsten 
moglichen Abhangigkeitsbeziehungen zwischen den verschiedenen Komponenten ei- 
nes empirischen Scores, die meist nur dann erfaGbar sind, wenn man den Daten (a 
priori) ein entsprechendes statistisches Modell anpaGt, kann durch die Lekture insbe- 
sondere von Hays (1977, 467, 481-483, 502, 528f„ 535f„ 540-543, 553, 568-574) 
sowie daruber hinaus etwa von Scheffe (1959, 333-339), Keppel (1973, 76, 199f., 
462-467) und Bortz (1979, 344-347) wesentlich vertieft werden. 



8.2.5.1 Zur Residuenanalyse; AusreiGerwerte 

Bei genauerer Betrachtung wird offensichtlich, daG die Mehrheit der fur die 
valide Anwendung der parametrischen Signifikanztests notwendigen Voraus- 
setzungen sich auf die (theoretische) Verteilung der Fehler Oder Residuen e im 
beziehen. Diese stellen den individuellen Anteil an den Daten dar, der nicht 
auf systematische Bedingungseinflusse zuruckfuhrbar ist. 

Wegen der daraus sich ergebenden Bedeutung, die den Residuen im Rahmen 
des Konzepts der statistischen Validitat zukommt, ist eine Inspektion dieser 
Fehler nach der Datenerhebung durchaus zu empfehlen; zur weiteren Begrun- 
dung dieser Forderung vgl. etwa das Beispiel von Broekman (1973) und das 
Zahlenmaterial in Hampel (1980, 9). Spezielle Techniken zur Analyse der 
Fehlerterme sind von Anscombe & Tukey (1963), Draper & Smith (1966, 
Kap. 3), Wooding (1969), Behnken & Draper (1972) und Tukey (1977) vorge- 
stellt worden. Unabhangig davon, ob man sich dieser teilweise sehr elaborier- 
ten Verfahren bedienen will, ist eine graphische Veranschaulichung der Roh- 
werte Oder aber der Fehler als Bestandteil der erhobenen Rohwerte in der 
Regel unerlaGlich - einen uberblick uber graphische Darstellungsformen und 
Techniken findet man bei Wainer & Thissen (1981). 




